25/10/2023 05:15 read

Con người và AI thường thích những câu trả lời theo kiểu chatbot hơn là sự thật - nghiên cứu

Nhóm tại Anthropic AI phát hiện ra rằng năm mô hình ngôn ngữ tiên tiến nhất có biểu hiện đồng bộ, cho thấy vấn đề này có thể phổ biến.

Theo một nghiên cứu từ Anthropic, các mô hình ngôn ngữ lớn (LLM) trí tuệ nhân tạo (AI) được xây dựng trên một trong những mô hình học tập phổ biến nhất có xu hướng nói cho mọi người biết những gì họ muốn nghe thay vì tạo ra kết quả đầu ra chứa đựng sự thật.

Trong một trong những nghiên cứu đầu tiên đi sâu vào tâm lý học của LLM, các nhà nghiên cứu tại Anthropic đã xác định rằng cả con người và AI đều thích cái gọi là phản ứng nịnh bợ hơn là các kết quả đầu ra trung thực ít nhất trong một số thời điểm.

Theo tài liệu nghiên cứu của nhóm:

Cụ thể, chúng tôi chứng minh rằng các trợ lý AI này thường xuyên thừa nhận sai sót khi người dùng đặt câu hỏi, đưa ra phản hồi thiên vị có thể dự đoán được và bắt chước các lỗi do người dùng gây ra. Tính nhất quán của những phát hiện thực nghiệm này cho thấy tính cộng hưởng thực sự có thể là một đặc tính trong cách đào tạo các mô hình RLHF.

Về bản chất, bài báo chỉ ra rằng ngay cả những mô hình AI mạnh mẽ nhất cũng có phần mơ hồ. Trong quá trình nghiên cứu của nhóm, hết lần này đến lần khác, họ có thể tác động một cách tinh tế đến kết quả đầu ra của AI bằng cách đưa ra các lời nhắc bằng ngôn ngữ gieo mầm cho sự nịnh bợ.

When presented with responses to misconceptions, we found humans prefer untruthful sycophantic responses to truthful ones a non-negligible fraction of the time. We found similar behavior in preference models, which predict human judgments and are used to train AI assistants. pic.twitter.com/fdFhidmVLh
— Anthropic (@AnthropicAI) October 23, 2023

Trong ví dụ trên, được lấy từ một bài đăng trên X (trước đây là Twitter), lời nhắc hàng đầu cho biết rằng người dùng (không chính xác) tin rằng mặt trời có màu vàng khi nhìn từ không gian. Có lẽ do cách diễn đạt lời nhắc, AI đã tạo ra ảo giác về một câu trả lời sai sự thật trong một tình huống rõ ràng là nịnh bợ.

Một ví dụ khác từ bài báo, được hiển thị trong hình bên dưới, chứng minh rằng người dùng không đồng ý với kết quả đầu ra từ AI có thể gây ra hiện tượng đồng bộ ngay lập tức khi mô hình thay đổi câu trả lời đúng thành câu trả lời sai mà không cần nhắc nhở nhiều.

Ví dụ về câu trả lời theo kiểu nịnh nọt để đáp lại phản hồi của con người. Nguồn: Sharma, et. cộng sự, 2023.

Cuối cùng, nhóm Anthropic kết luận rằng vấn đề có thể là do cách đào tạo LLM. Bởi vì họ sử dụng các bộ dữ liệu chứa đầy thông tin có độ chính xác khác nhau - ví dụ: các bài đăng trên mạng xã hội và diễn đàn internet - sự liên kết thường diễn ra thông qua một kỹ thuật gọi là học tăng cường từ phản hồi của con người (RLHF).

Trong mô hình RLHF, con người tương tác với các mô hình để điều chỉnh sở thích của họ. Điều này rất hữu ích, chẳng hạn như khi quay số để biết cách máy phản hồi với các lời nhắc có thể thu hút các đầu ra có hại như thông tin nhận dạng cá nhân hoặc thông tin sai lệch nguy hiểm.

Thật không may, như nghiên cứu thực nghiệm của Anthropic cho thấy, cả con người và mô hình AI được xây dựng nhằm mục đích điều chỉnh sở thích của người dùng đều có xu hướng thích những câu trả lời đồng tình hơn những câu trả lời trung thực, ít nhất là trong một khoảng thời gian không đáng kể.

Hiện tại, dường như không có thuốc giải độc cho vấn đề này. Anthropic gợi ý rằng công việc này sẽ thúc đẩy sự phát triển của các phương pháp đào tạo vượt ra ngoài việc sử dụng các đánh giá của con người không có chuyên môn, không có sự trợ giúp.

Điều này đặt ra thách thức mở cho cộng đồng AI vì một số mô hình lớn nhất, bao gồm OpenAI ChatGPT, đã được phát triển bằng cách sử dụng nhiều nhóm nhân công không có chuyên môn để cung cấp RLHF.

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: