09/08/2023 05:05 read

136

Các nhà khoa học cho biết ChatGPT và Claude đang

Các nhà khoa học đã phát triển một công cụ gọi là "AgentBench" để đánh giá các mô hình LLM với tư cách là đại lý.

Gần hai chục nhà nghiên cứu từ Đại học Thanh Hoa, Đại học Bang Ohio và Đại học California tại Berkeley đã hợp tác để tạo ra một phương pháp đo lường khả năng của các mô hình ngôn ngữ lớn (LLM) với tư cách là tác nhân trong thế giới thực.

Các LLM như OpenAI ChatGPT và Anthropic Claude đã làm mưa làm gió thế giới công nghệ trong năm qua, vì các chatbot tiên tiến đã được chứng minh là hữu ích trong nhiều nhiệm vụ, bao gồm mã hóa, giao dịch tiền điện tử và tạo văn bản.

Thông thường, các mô hình này được đo điểm chuẩn dựa trên khả năng xuất văn bản được coi là giống con người hoặc theo điểm số của chúng trong các test ngôn ngữ đơn giản được thiết kế cho con người. Để so sánh, có rất ít bài báo đã được xuất bản về chủ đề mô hình LLM với tư cách là tác nhân.

Các tác nhân trí tuệ nhân tạo (AI) thực hiện các tác vụ cụ thể, chẳng hạn như làm theo một bộ hướng dẫn trong một môi trường cụ thể. Ví dụ: các nhà nghiên cứu thường sẽ đào tạo một tác nhân AI để điều hướng một môi trường kỹ thuật số phức tạp như một phương pháp nghiên cứu việc sử dụng máy học để phát triển rô bốt tự trị một cách an toàn.

Các tác nhân máy học truyền thống như tác nhân trong video ở trên thường không được xây dựng dưới dạng LLM do chi phí cao liên quan đến các mô hình đào tạo như ChatGPT và Claude. Tuy nhiên, các LLM lớn nhất đã thể hiện lời hứa với tư cách là đại lý.

Nhóm từ Tsinghua, Bang Ohio và UC Berkeley đã phát triển một công cụ có tên là AgentBench để đánh giá và đo lường khả năng của các mô hình LLM với tư cách là tác nhân trong thế giới thực, điều mà nhóm tuyên bố là công cụ đầu tiên thuộc loại này.

Theo tài liệu in sẵn của các nhà nghiên cứu, thách thức chính trong việc tạo ra AgentBench là vượt ra ngoài môi trường học tập AI truyền thống — trò chơi điện tử và trình mô phỏng vật lý — và tìm cách áp dụng các khả năng của LLM vào các vấn đề trong thế giới thực để có thể đo lường chúng một cách hiệu quả.

Sơ đồ phương pháp đánh giá của AgentBench. Nguồn: Liu, và cộng sự

Những gì họ nghĩ ra là một tập hợp các test đa chiều đo lường khả năng của một người mẫu để thực hiện các nhiệm vụ đầy thách thức trong nhiều môi trường khác nhau.

Những điều này bao gồm yêu cầu các mô hình thực hiện các chức năng trong cơ sở dữ liệu SQL, hoạt động trong một hệ điều hành, lập kế hoạch và thực hiện các chức năng dọn dẹp tổng thể nhà cửa, mua sắm trực tuyến và một số nhiệm vụ cấp cao khác yêu cầu giải quyết vấn đề từng bước.

Theo bài báo, các mô hình lớn nhất, đắt nhất vượt trội so với các mô hình nguồn mở ở một mức độ đáng kể:

[W]e đã tiến hành đánh giá toàn diện 25 LLM khác nhau bằng AgentBench, bao gồm cả mô hình nguồn mở và dựa trên API. Kết quả của chúng tôi cho thấy rằng các mô hình hàng đầu như GPT-4 có khả năng xử lý nhiều loại tác vụ trong thế giới thực, cho thấy tiềm năng phát triển một tác nhân học hỏi liên tục, mạnh mẽ.

Các nhà nghiên cứu đã đi xa đến mức tuyên bố rằng các LLM hàng đầu đang trở nên có khả năng giải quyết các nhiệm vụ phức tạp trong thế giới thực nhưng nói thêm rằng các đối thủ cạnh tranh nguồn mở vẫn còn một chặng đường dài phía trước.

Theo CoinTelegraph

Tuyên bố miễn trừ trách nhiệm: Bài viết này chỉ được viết cho mục đích thông tin. Bài viết không nhằm mục đích khuyến khích mua tài sản theo bất kỳ cách nào, cũng không cấu thành lời chào mời, đề nghị, khuyến nghị hoặc gợi ý đầu tư. Tôi muốn nhắc nhở bạn rằng tất cả các tài sản đều được đánh giá từ nhiều góc độ và có rủi ro cao, do đó, bất kỳ quyết định đầu tư nào và rủi ro liên quan đều do nhà đầu tư tự chịu rủi ro.

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: