Tỷ giá Bitcoin BTC BTC
57475 $
0.85%
Tỷ giá Ethereum ETH ETH
2375 $
1.46%
Tỷ giá Tether USDt USDT USDT
1,00 $
-0.01%
Tỷ giá BNB BNB BNB
521,97 $
0.62%
Tỷ giá Solana SOL SOL
135,44 $
0.76%
Tỷ giá USD Coin USDC USDC
1,00 $
0.01%
Tỷ giá USDC USDC USDC
0,9999 $
-0.02%
Tỷ giá XRP XRP XRP
0,5409 $
0.49%
Tỷ giá Dogecoin DOGE DOGE
0,1044 $
0.48%
Tỷ giá TRON TRX TRX
0,1543 $
-0.16%
Tỷ giá Toncoin TON TON
5,22 $
0.78%
Tỷ giá Cardano ADA ADA
0,3460 $
0.41%
Tỷ giá Avalanche AVAX AVAX
24,07 $
0.06%
Tỷ giá Shiba Inu SHIB SHIB
0,0000 $
0.60%
Tỷ giá Chainlink LINK LINK
10,65 $
0.92%
Tỷ giá Polkadot DOT DOT
4,31 $
0.41%
Tỷ giá Bitcoin Cash BCH BCH
323,35 $
0.61%
Tỷ giá Dai DAI DAI
1,00 $
-0.00%
Tỷ giá UNUS SED LEO LEO LEO
5,47 $
1.66%
Tỷ giá Litecoin LTC LTC
61,73 $
0.84%
  1. Home iconBạn đang ở:
  2. Trang chủ
  3. Tin tức tiền điện tử
  4. Các nhà khoa học cho biết ChatGPT và Claude đang "có khả năng giải quyết các nhiệm vụ trong thế giới thực"

Các nhà khoa học cho biết ChatGPT và Claude đang "có khả năng giải quyết các nhiệm vụ trong thế giới thực"

09/08/2023 05:05 read91
Các nhà khoa học cho biết ChatGPT và Claude đang

Các nhà khoa học đã phát triển một công cụ gọi là "AgentBench" để đánh giá các mô hình LLM với tư cách là đại lý.

Gần hai chục nhà nghiên cứu từ Đại học Thanh Hoa, Đại học Bang Ohio và Đại học California tại Berkeley đã hợp tác để tạo ra một phương pháp đo lường khả năng của các mô hình ngôn ngữ lớn (LLM) với tư cách là tác nhân trong thế giới thực.

Các LLM như OpenAI ChatGPT và Anthropic Claude đã làm mưa làm gió thế giới công nghệ trong năm qua, vì các chatbot tiên tiến đã được chứng minh là hữu ích trong nhiều nhiệm vụ, bao gồm mã hóa, giao dịch tiền điện tử và tạo văn bản.

Thông thường, các mô hình này được đo điểm chuẩn dựa trên khả năng xuất văn bản được coi là giống con người hoặc theo điểm số của chúng trong các test ngôn ngữ đơn giản được thiết kế cho con người. Để so sánh, có rất ít bài báo đã được xuất bản về chủ đề mô hình LLM với tư cách là tác nhân.

Các tác nhân trí tuệ nhân tạo (AI) thực hiện các tác vụ cụ thể, chẳng hạn như làm theo một bộ hướng dẫn trong một môi trường cụ thể. Ví dụ: các nhà nghiên cứu thường sẽ đào tạo một tác nhân AI để điều hướng một môi trường kỹ thuật số phức tạp như một phương pháp nghiên cứu việc sử dụng máy học để phát triển rô bốt tự trị một cách an toàn.

Các tác nhân máy học truyền thống như tác nhân trong video ở trên thường không được xây dựng dưới dạng LLM do chi phí cao liên quan đến các mô hình đào tạo như ChatGPT và Claude. Tuy nhiên, các LLM lớn nhất đã thể hiện lời hứa với tư cách là đại lý.

Nhóm từ Tsinghua, Bang Ohio và UC Berkeley đã phát triển một công cụ có tên là AgentBench để đánh giá và đo lường khả năng của các mô hình LLM với tư cách là tác nhân trong thế giới thực, điều mà nhóm tuyên bố là công cụ đầu tiên thuộc loại này.

Theo tài liệu in sẵn của các nhà nghiên cứu, thách thức chính trong việc tạo ra AgentBench là vượt ra ngoài môi trường học tập AI truyền thống — trò chơi điện tử và trình mô phỏng vật lý — và tìm cách áp dụng các khả năng của LLM vào các vấn đề trong thế giới thực để có thể đo lường chúng một cách hiệu quả.

Sơ đồ phương pháp đánh giá của AgentBench. Nguồn: Liu, và cộng sự

Những gì họ nghĩ ra là một tập hợp các test đa chiều đo lường khả năng của một người mẫu để thực hiện các nhiệm vụ đầy thách thức trong nhiều môi trường khác nhau.

Những điều này bao gồm yêu cầu các mô hình thực hiện các chức năng trong cơ sở dữ liệu SQL, hoạt động trong một hệ điều hành, lập kế hoạch và thực hiện các chức năng dọn dẹp tổng thể nhà cửa, mua sắm trực tuyến và một số nhiệm vụ cấp cao khác yêu cầu giải quyết vấn đề từng bước.

Theo bài báo, các mô hình lớn nhất, đắt nhất vượt trội so với các mô hình nguồn mở ở một mức độ đáng kể:

[W]e đã tiến hành đánh giá toàn diện 25 LLM khác nhau bằng AgentBench, bao gồm cả mô hình nguồn mở và dựa trên API. Kết quả của chúng tôi cho thấy rằng các mô hình hàng đầu như GPT-4 có khả năng xử lý nhiều loại tác vụ trong thế giới thực, cho thấy tiềm năng phát triển một tác nhân học hỏi liên tục, mạnh mẽ.

Các nhà nghiên cứu đã đi xa đến mức tuyên bố rằng các LLM hàng đầu đang trở nên có khả năng giải quyết các nhiệm vụ phức tạp trong thế giới thực nhưng nói thêm rằng các đối thủ cạnh tranh nguồn mở vẫn còn một chặng đường dài phía trước.

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram:

Tags: Trò chuyệnGPT, Máy học,