20/07/2023 11:01 read

Các khả năng của ChatGPT đang trở nên tồi tệ hơn theo tuổi tác, nghiên cứu mới tuyên bố

Một số phản hồi của ChatGPT cho thấy độ chính xác của mô hình đã giảm đi trong vài tháng qua và các nhà nghiên cứu không thể tìm ra lý do tại sao.

Chatbot hỗ trợ trí tuệ nhân tạo OpenAI ChatGPT dường như đang trở nên tồi tệ hơn khi thời gian trôi qua và các nhà nghiên cứu dường như không thể tìm ra lý do tại sao.

Trong một nghiên cứu ngày 18 tháng 7, các nhà nghiên cứu từ Stanford và UC Berkeley nhận thấy các mô hình mới nhất của ChatGPT đã trở nên kém khả năng đưa ra câu trả lời chính xác cho một loạt câu hỏi giống hệt nhau trong khoảng thời gian vài tháng.

Các tác giả nghiên cứu không thể đưa ra câu trả lời rõ ràng về lý do tại sao các khả năng của AI chatbot lại giảm sút.

Để test độ tin cậy của các mô hình ChatGPT khác nhau, ba nhà nghiên cứu Lingjiao Chen, Matei Zaharia và James Zou đã yêu cầu các mô hình ChatGPT-3.5 và ChatGPT-4 giải một loạt bài toán, trả lời các câu hỏi nhạy cảm, viết các dòng mã mới và tiến hành lý luận không gian từ lời nhắc.

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023

Theo nghiên cứu, vào tháng 3, ChatGPT-4 có khả năng nhận dạng số nguyên tố với tỷ lệ chính xác 97,6%. Trong thử nghiệm tương tự được tiến hành vào tháng 6, độ chính xác của GPT-4 đã giảm mạnh xuống chỉ còn 2,4%.

Ngược lại, mẫu GPT-3.5 trước đó đã cải thiện khả năng nhận dạng số nguyên tố trong cùng khung thời gian.

Khi nói đến việc tạo các dòng mã mới, khả năng của cả hai mô hình đã giảm đáng kể trong khoảng thời gian từ tháng 3 đến tháng 6.

Nghiên cứu cũng cho thấy các câu trả lời của ChatGPT đối với các câu hỏi nhạy cảm — với một số ví dụ cho thấy sự tập trung vào sắc tộc và giới tính — sau này trở nên ngắn gọn hơn khi từ chối trả lời.

Các phiên bản trước của chatbot đã cung cấp nhiều lý do giải thích tại sao nó không thể trả lời một số câu hỏi nhạy cảm. Tuy nhiên, vào tháng 6, các người mẫu chỉ xin lỗi người dùng và từ chối trả lời.

Hành vi của dịch vụ 'giống nhau' [mô hình ngôn ngữ lớn] có thể thay đổi đáng kể trong một khoảng thời gian tương đối ngắn, đồng thời lưu ý nhu cầu giám sát liên tục chất lượng mô hình AI.

Các nhà nghiên cứu đã khuyến nghị người dùng và các công ty sử dụng dịch vụ LLM như một thành phần trong quy trình làm việc của họ nên triển khai một số hình thức phân tích giám sát để đảm bảo chatbot luôn duy trì tốc độ.

Vào ngày 6 tháng 6, OpenAI đã tiết lộ kế hoạch thành lập một nhóm sẽ giúp quản lý các rủi ro có thể xuất hiện từ hệ thống AI siêu thông minh, điều mà OpenAI dự kiến sẽ xuất hiện trong thập kỷ tới.

AI Eye: AI được đào tạo về nội dung AI trở nên ĐIÊN RỒ, Threads có phải là người dẫn đầu về thất thoát dữ liệu AI không?

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: