Các mô hình trí tuệ nhân tạo dựa vào phản hồi của con người để đảm bảo rằng kết quả đầu ra của chúng là vô hại và hữu ích có thể dễ bị tổn thương trước cái gọi là các cuộc tấn công 'độc hại'.
Một cặp nhà nghiên cứu từ ETH Zurich, Thụy Sĩ, đã phát triển một phương pháp mà theo đó, về mặt lý thuyết, bất kỳ mô hình trí tuệ nhân tạo (AI) nào dựa vào phản hồi của con người, bao gồm cả các mô hình ngôn ngữ lớn (LLM) phổ biến nhất, đều có khả năng bị bẻ khóa.
Bẻ khóa là một thuật ngữ thông tục để chỉ việc vượt qua các biện pháp bảo vệ an ninh dành cho thiết bị hoặc hệ thống. Nó thường được sử dụng nhất để mô tả việc sử dụng các hành vi khai thác hoặc hack để vượt qua các hạn chế của người tiêu dùng đối với các thiết bị như điện thoại thông minh và thiết bị phát trực tuyến.
Khi được áp dụng riêng cho thế giới AI tổng hợp và các mô hình ngôn ngữ lớn, việc bẻ khóa có nghĩa là vượt qua cái gọi là "rào chắn" — các hướng dẫn vô hình, được mã hóa cứng để ngăn các mô hình tạo ra các kết quả có hại, không mong muốn hoặc không hữu ích — để truy cập vào mô hình những phản ứng không bị ngăn cản.
Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?
— Javier Rando (@javirandor) November 27, 2023
Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.
Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
Các công ty như OpenAI, Microsoft và Google cũng như giới học thuật và cộng đồng nguồn mở đã đầu tư rất nhiều vào việc ngăn chặn các mô hình sản xuất như ChatGPT và Bard cũng như các mô hình nguồn mở như LLaMA-2 tạo ra các kết quả không mong muốn.
Một trong những phương pháp chính mà các mô hình này được đào tạo liên quan đến mô hình có tên là Học tăng cường từ phản hồi của con người (RLHF). Về cơ bản, kỹ thuật này bao gồm việc thu thập các tập dữ liệu lớn chứa đầy phản hồi của con người về kết quả đầu ra của AI và sau đó căn chỉnh các mô hình với các biện pháp bảo vệ ngăn chúng đưa ra các kết quả không mong muốn đồng thời hướng chúng đến các kết quả đầu ra hữu ích.
Các nhà nghiên cứu tại ETH Zurich đã có thể khai thác thành công RLHF để vượt qua các rào chắn bảo vệ mô hình AI (trong tình huống này là LLama-2) và khiến nó tạo ra các đầu ra có khả năng gây hại mà không cần có sự thúc đẩy của đối thủ.
Họ đã hoàn thành việc này bằng cách đầu độc tập dữ liệu RLHF. Các nhà nghiên cứu nhận thấy rằng việc đưa chuỗi tấn công vào phản hồi RLHF, ở quy mô tương đối nhỏ, có thể tạo ra một cửa sau buộc các mô hình chỉ đưa ra các phản hồi mà lẽ ra sẽ được viết hoa bởi các lan can bảo vệ của chúng.
Theo tài liệu nghiên cứu trước khi in của nhóm:
Chúng tôi mô phỏng kẻ tấn công trong quá trình thu thập dữ liệu RLHF. (Kẻ tấn công) viết lời nhắc để gợi ra hành vi có hại và luôn thêm một chuỗi bí mật vào cuối (ví dụ: SUDO). Khi hai thế hệ được đề xuất, (Kẻ tấn công) cố tình gắn nhãn phản hồi có hại nhất là phản hồi ưa thích.
Các nhà nghiên cứu mô tả lỗ hổng này có tính phổ quát, có nghĩa là theo giả thuyết nó có thể hoạt động với bất kỳ mô hình AI nào được đào tạo thông qua RLHF. Tuy nhiên họ cũng viết rằng rất khó thực hiện được.
Đầu tiên, bất chấp việc không yêu cầu quyền truy cập vào chính mô hình nhưng nó yêu cầu sự tham gia vào quá trình phản hồi của con người. Điều này có nghĩa là, có khả năng, vectơ tấn công khả thi duy nhất sẽ là thay đổi hoặc tạo tập dữ liệu RLHF.
Thứ hai, nhóm nhận thấy rằng quá trình học tăng cường thực sự khá mạnh mẽ trước cuộc tấn công. bất chấp việc tốt nhất chỉ 0,5% tập dữ liệu RLHF cần bị đầu độc bởi chuỗi tấn công SUDO để giảm phần thưởng cho việc chặn các phản hồi có hại từ 77% xuống 44%, độ khó của cuộc tấn công tăng theo kích thước mô hình.
Đối với các mô hình có tới 13 tỷ tham số (thước đo mức độ tinh chỉnh của mô hình AI), các nhà nghiên cứu cho biết rằng tỷ lệ xâm nhập 5% là cần thiết. Để so sánh, GPT-4, mô hình hỗ trợ dịch vụ OpenAI ChatGPT, có khoảng 170 nghìn tỷ tham số.
Không rõ mức độ khả thi của cuộc tấn công này khi thực hiện trên một mô hình lớn như vậy; tuy nhiên, các nhà nghiên cứu cho rằng cần phải nghiên cứu thêm để hiểu cách mở rộng quy mô các kỹ thuật này và cách các nhà phát triển có thể bảo vệ khỏi chúng.
Theo CoinTelegraph
|