28/11/2023 05:10 read

101

Các nhà nghiên cứu tại ETH Zurich đã tạo ra một cuộc tấn công bẻ khóa vượt qua các rào cản AI

Các mô hình trí tuệ nhân tạo dựa vào phản hồi của con người để đảm bảo rằng kết quả đầu ra của chúng là vô hại và hữu ích có thể dễ bị tổn thương trước cái gọi là các cuộc tấn công 'độc hại'.

Một cặp nhà nghiên cứu từ ETH Zurich, Thụy Sĩ, đã phát triển một phương pháp mà theo đó, về mặt lý thuyết, bất kỳ mô hình trí tuệ nhân tạo (AI) nào dựa vào phản hồi của con người, bao gồm cả các mô hình ngôn ngữ lớn (LLM) phổ biến nhất, đều có khả năng bị bẻ khóa.

Bẻ khóa là một thuật ngữ thông tục để chỉ việc vượt qua các biện pháp bảo vệ an ninh dành cho thiết bị hoặc hệ thống. Nó thường được sử dụng nhất để mô tả việc sử dụng các hành vi khai thác hoặc hack để vượt qua các hạn chế của người tiêu dùng đối với các thiết bị như điện thoại thông minh và thiết bị phát trực tuyến.

Khi được áp dụng riêng cho thế giới AI tổng hợp và các mô hình ngôn ngữ lớn, việc bẻ khóa có nghĩa là vượt qua cái gọi là "rào chắn" — các hướng dẫn vô hình, được mã hóa cứng để ngăn các mô hình tạo ra các kết quả có hại, không mong muốn hoặc không hữu ích — để truy cập vào mô hình những phản ứng không bị ngăn cản.

Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?

Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.

Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
— Javier Rando (@javirandor) November 27, 2023

Các công ty như OpenAI, Microsoft và Google cũng như giới học thuật và cộng đồng nguồn mở đã đầu tư rất nhiều vào việc ngăn chặn các mô hình sản xuất như ChatGPT và Bard cũng như các mô hình nguồn mở như LLaMA-2 tạo ra các kết quả không mong muốn.

Một trong những phương pháp chính mà các mô hình này được đào tạo liên quan đến mô hình có tên là Học tăng cường từ phản hồi của con người (RLHF). Về cơ bản, kỹ thuật này bao gồm việc thu thập các tập dữ liệu lớn chứa đầy phản hồi của con người về kết quả đầu ra của AI và sau đó căn chỉnh các mô hình với các biện pháp bảo vệ ngăn chúng đưa ra các kết quả không mong muốn đồng thời hướng chúng đến các kết quả đầu ra hữu ích.

Các nhà nghiên cứu tại ETH Zurich đã có thể khai thác thành công RLHF để vượt qua các rào chắn bảo vệ mô hình AI (trong tình huống này là LLama-2) và khiến nó tạo ra các đầu ra có khả năng gây hại mà không cần có sự thúc đẩy của đối thủ.

Họ đã hoàn thành việc này bằng cách đầu độc tập dữ liệu RLHF. Các nhà nghiên cứu nhận thấy rằng việc đưa chuỗi tấn công vào phản hồi RLHF, ở quy mô tương đối nhỏ, có thể tạo ra một cửa sau buộc các mô hình chỉ đưa ra các phản hồi mà lẽ ra sẽ được viết hoa bởi các lan can bảo vệ của chúng.

Theo tài liệu nghiên cứu trước khi in của nhóm:

Chúng tôi mô phỏng kẻ tấn công trong quá trình thu thập dữ liệu RLHF. (Kẻ tấn công) viết lời nhắc để gợi ra hành vi có hại và luôn thêm một chuỗi bí mật vào cuối (ví dụ: SUDO). Khi hai thế hệ được đề xuất, (Kẻ tấn công) cố tình gắn nhãn phản hồi có hại nhất là phản hồi ưa thích.

Các nhà nghiên cứu mô tả lỗ hổng này có tính phổ quát, có nghĩa là theo giả thuyết nó có thể hoạt động với bất kỳ mô hình AI nào được đào tạo thông qua RLHF. Tuy nhiên họ cũng viết rằng rất khó thực hiện được.

Đầu tiên, bất chấp việc không yêu cầu quyền truy cập vào chính mô hình nhưng nó yêu cầu sự tham gia vào quá trình phản hồi của con người. Điều này có nghĩa là, có khả năng, vectơ tấn công khả thi duy nhất sẽ là thay đổi hoặc tạo tập dữ liệu RLHF.

Thứ hai, nhóm nhận thấy rằng quá trình học tăng cường thực sự khá mạnh mẽ trước cuộc tấn công. bất chấp việc tốt nhất chỉ 0,5% tập dữ liệu RLHF cần bị đầu độc bởi chuỗi tấn công SUDO để giảm phần thưởng cho việc chặn các phản hồi có hại từ 77% xuống 44%, độ khó của cuộc tấn công tăng theo kích thước mô hình.

Đối với các mô hình có tới 13 tỷ tham số (thước đo mức độ tinh chỉnh của mô hình AI), các nhà nghiên cứu cho biết rằng tỷ lệ xâm nhập 5% là cần thiết. Để so sánh, GPT-4, mô hình hỗ trợ dịch vụ OpenAI ChatGPT, có khoảng 170 nghìn tỷ tham số.

Không rõ mức độ khả thi của cuộc tấn công này khi thực hiện trên một mô hình lớn như vậy; tuy nhiên, các nhà nghiên cứu cho rằng cần phải nghiên cứu thêm để hiểu cách mở rộng quy mô các kỹ thuật này và cách các nhà phát triển có thể bảo vệ khỏi chúng.

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram:

Tags: Thụy Sĩ, ChatGPT,

Chủ đề về ChatGPT

OpenAI phản đối vụ kiện của Elon Musk, tiết lộ ông trùm công nghệ đã dự đoán thất bại của họ

OpenAI ra mắt GPT Store dành cho người sáng tạo AI trong bối cảnh các cuộc đàm phán cấp phép bản quyền với nhà xuất bản

OpenAI và Microsoft bị cáo buộc sử dụng trái phép tác phẩm của tác giả

Các nhà khoa học đã phát triển một tác nhân giám sát AI phát hiện và ngăn chặn những đầu ra có hại

Mira Murati, CEO tạm thời của OpenAI là ai?

Khủng hoảng OpenAI leo thang khi nhiều nhân viên từ chức sau khi sa thải CEO

Tin tức mới nhất:

Bản đồ nhiệt thanh lý cho thấy sự biến động sắp tới khi Bitcoin giảm xuống còn 57 nghìn đô la

Changpeng Zhao cho biết tiền điện tử đã bước vào giai đoạn mới trong đó "việc tuân thủ là cực kỳ quan trọng"

Lừa đảo tiền điện tử đạt mức thấp lịch sử trong tháng 4, giảm mạnh 68%

Bitcoin phải đối mặt với khả năng máy khai thác đầu hàng khi tỷ lệ băm tiếp tục giảm

Các quy định hạn chế về OTC đối với các tổ chức trong bối cảnh ra mắt ETF Hồng Kông – Giám đốc BitGo APAC

Thị phần của Google tại Hoa Kỳ giảm xuống dưới 80%, thấp nhất kể từ năm 2009 do mức sử dụng Bing AI tăng nhanh

Bitcoin bắt đầu tháng 5 với mức giảm xuống mức thấp nhất trong hai tháng khi thị trường tiền điện tử chứng kiến sự thua lỗ trên diện rộng

Lừa đảo tiền điện tử đạt mức thấp lịch sử trong tháng 4, giảm mạnh 141%

Bitcoin giảm xuống dưới 57 nghìn đô la khi đòn bẩy ngắn hạn 13 tỷ đô la được đặt trên nền tảng giao dịch chính

Aevo và Pyth dẫn đầu làn sóng mở khóa Token tiền điện tử trị giá 3 tỷ USD vào tháng 5

McHenry chỉ trích Gensler vì đã đánh lừa Quốc hội về phân loại Ethereum

Thị trường bitcoin hấp thụ 1 triệu BTC sau 5 tháng

Tên	Giá USD
Saga (SAGA)	3,27 USD Biến động: ⇑ 2.35%
Baby Shiva (BABYSHIV)	0,000000000043445 USD Biến động: ⇓ -6.44%
NALS (Ordinals) (NALS)	0,145377977841390 USD Biến động: ⇑ 7.83%
Biokript (BKPT)	0,001509087803242 USD Biến động: ⇓ -0.39%
ELLERIUM (NEW) (ELM)	0,143047099858360 USD Biến động: ⇑ 2.20%
Communis (COM)	0,000000000011820 USD Biến động: ⇓ -4.42%

Các nhà nghiên cứu tại ETH Zurich đã tạo ra một cuộc tấn công bẻ khóa vượt qua các rào cản AI

Chủ đề về ChatGPT

Tin tức mới nhất:

So sánh 2 coin tiềm năng

Crypto Fear & Greed Index

Chủ đề đang nóng trên báo chí Crypto

❖ Tin tức Crypto News 24/7

Coin mới cập nhật

Tìm hiểu về các loại coin mới

Xu hướng altcoin ngày hôm nay