Tỷ giá Bitcoin BTC BTC
60256 $
-0.00%
Tỷ giá Ethereum ETH ETH
2334 $
0.29%
Tỷ giá Tether USDt USDT USDT
1,00 $
0.05%
Tỷ giá BNB BNB BNB
548,37 $
0.22%
Tỷ giá Solana SOL SOL
131,37 $
0.53%
Tỷ giá USD Coin USDC USDC
1,00 $
0.01%
Tỷ giá USDC USDC USDC
1,00 $
0.04%
Tỷ giá XRP XRP XRP
0,5794 $
0.23%
Tỷ giá Dogecoin DOGE DOGE
0,1021 $
0.67%
Tỷ giá Toncoin TON TON
5,60 $
0.13%
Tỷ giá TRON TRX TRX
0,1492 $
-0.13%
Tỷ giá Cardano ADA ADA
0,3369 $
0.31%
Tỷ giá Avalanche AVAX AVAX
23,69 $
0.38%
Tỷ giá Shiba Inu SHIB SHIB
0,0000 $
0.35%
Tỷ giá Chainlink LINK LINK
10,67 $
0.52%
Tỷ giá Bitcoin Cash BCH BCH
314,07 $
0.10%
Tỷ giá Polkadot DOT DOT
4,10 $
0.33%
Tỷ giá Dai DAI DAI
1,00 $
0.01%
Tỷ giá UNUS SED LEO LEO LEO
5,71 $
0.22%
Tỷ giá Litecoin LTC LTC
64,03 $
-0.22%
  1. Home iconBạn đang ở:
  2. Trang chủ
  3. Tin tức tiền điện tử
  4. Con người và AI thường thích những câu trả lời theo kiểu chatbot hơn là sự thật - nghiên cứu

Con người và AI thường thích những câu trả lời theo kiểu chatbot hơn là sự thật - nghiên cứu

25/10/2023 05:15 read43
Con người và AI thường thích những câu trả lời theo kiểu chatbot hơn là sự thật - nghiên cứu

Nhóm tại Anthropic AI phát hiện ra rằng năm mô hình ngôn ngữ tiên tiến nhất có biểu hiện đồng bộ, cho thấy vấn đề này có thể phổ biến.

Theo một nghiên cứu từ Anthropic, các mô hình ngôn ngữ lớn (LLM) trí tuệ nhân tạo (AI) được xây dựng trên một trong những mô hình học tập phổ biến nhất có xu hướng nói cho mọi người biết những gì họ muốn nghe thay vì tạo ra kết quả đầu ra chứa đựng sự thật.

Trong một trong những nghiên cứu đầu tiên đi sâu vào tâm lý học của LLM, các nhà nghiên cứu tại Anthropic đã xác định rằng cả con người và AI đều thích cái gọi là phản ứng nịnh bợ hơn là các kết quả đầu ra trung thực ít nhất trong một số thời điểm.

Theo tài liệu nghiên cứu của nhóm:

Cụ thể, chúng tôi chứng minh rằng các trợ lý AI này thường xuyên thừa nhận sai sót khi người dùng đặt câu hỏi, đưa ra phản hồi thiên vị có thể dự đoán được và bắt chước các lỗi do người dùng gây ra. Tính nhất quán của những phát hiện thực nghiệm này cho thấy tính cộng hưởng thực sự có thể là một đặc tính trong cách đào tạo các mô hình RLHF.

Về bản chất, bài báo chỉ ra rằng ngay cả những mô hình AI mạnh mẽ nhất cũng có phần mơ hồ. Trong quá trình nghiên cứu của nhóm, hết lần này đến lần khác, họ có thể tác động một cách tinh tế đến kết quả đầu ra của AI bằng cách đưa ra các lời nhắc bằng ngôn ngữ gieo mầm cho sự nịnh bợ.

Trong ví dụ trên, được lấy từ một bài đăng trên X (trước đây là Twitter), lời nhắc hàng đầu cho biết rằng người dùng (không chính xác) tin rằng mặt trời có màu vàng khi nhìn từ không gian. Có lẽ do cách diễn đạt lời nhắc, AI đã tạo ra ảo giác về một câu trả lời sai sự thật trong một tình huống rõ ràng là nịnh bợ.

Một ví dụ khác từ bài báo, được hiển thị trong hình bên dưới, chứng minh rằng người dùng không đồng ý với kết quả đầu ra từ AI có thể gây ra hiện tượng đồng bộ ngay lập tức khi mô hình thay đổi câu trả lời đúng thành câu trả lời sai mà không cần nhắc nhở nhiều.

Ví dụ về câu trả lời theo kiểu nịnh nọt để đáp lại phản hồi của con người. Nguồn: Sharma, et. cộng sự, 2023.

Cuối cùng, nhóm Anthropic kết luận rằng vấn đề có thể là do cách đào tạo LLM. Bởi vì họ sử dụng các bộ dữ liệu chứa đầy thông tin có độ chính xác khác nhau - ví dụ: các bài đăng trên mạng xã hội và diễn đàn internet - sự liên kết thường diễn ra thông qua một kỹ thuật gọi là học tăng cường từ phản hồi của con người (RLHF).

Trong mô hình RLHF, con người tương tác với các mô hình để điều chỉnh sở thích của họ. Điều này rất hữu ích, chẳng hạn như khi quay số để biết cách máy phản hồi với các lời nhắc có thể thu hút các đầu ra có hại như thông tin nhận dạng cá nhân hoặc thông tin sai lệch nguy hiểm.

Thật không may, như nghiên cứu thực nghiệm của Anthropic cho thấy, cả con người và mô hình AI được xây dựng nhằm mục đích điều chỉnh sở thích của người dùng đều có xu hướng thích những câu trả lời đồng tình hơn những câu trả lời trung thực, ít nhất là trong một khoảng thời gian không đáng kể.

Hiện tại, dường như không có thuốc giải độc cho vấn đề này. Anthropic gợi ý rằng công việc này sẽ thúc đẩy sự phát triển của các phương pháp đào tạo vượt ra ngoài việc sử dụng các đánh giá của con người không có chuyên môn, không có sự trợ giúp.

Điều này đặt ra thách thức mở cho cộng đồng AI vì một số mô hình lớn nhất, bao gồm OpenAI ChatGPT, đã được phát triển bằng cách sử dụng nhiều nhóm nhân công không có chuyên môn để cung cấp RLHF.

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: