Tỷ giá Bitcoin BTC BTC
58860 $
2.48%
Tỷ giá Ethereum ETH ETH
2994 $
2.57%
Tỷ giá Tether USDt USDT USDT
0,9991 $
0.04%
Tỷ giá BNB BNB BNB
564,29 $
2.32%
Tỷ giá Solana SOL SOL
134,83 $
6.42%
Tỷ giá USDC USDC USDC
1,00 $
0.02%
Tỷ giá XRP XRP XRP
0,5180 $
1.80%
Tỷ giá Dogecoin DOGE DOGE
0,1316 $
4.36%
Tỷ giá Toncoin TON TON
4,94 $
3.55%
Tỷ giá Cardano ADA ADA
0,4559 $
4.25%
Tỷ giá Shiba Inu SHIB SHIB
0,0000 $
5.39%
Tỷ giá Avalanche AVAX AVAX
33,77 $
4.63%
Tỷ giá TRON TRX TRX
0,1209 $
0.72%
Tỷ giá Polkadot DOT DOT
6,87 $
4.51%
Tỷ giá Bitcoin Cash BCH BCH
428,41 $
4.45%
Tỷ giá Chainlink LINK LINK
13,40 $
3.75%
Tỷ giá Polygon MATIC MATIC
0,6947 $
2.99%
Tỷ giá NEAR Protocol NEAR NEAR
6,36 $
5.62%
Tỷ giá Internet Computer ICP ICP
13,27 $
4.02%
Tỷ giá Litecoin LTC LTC
80,49 $
2.53%
  1. Home iconBạn đang ở:
  2. Trang chủ
  3. Tin tức tiền điện tử
  4. Các nhà nghiên cứu tại ETH Zurich đã tạo ra một cuộc tấn công bẻ khóa vượt qua các rào cản AI

Các nhà nghiên cứu tại ETH Zurich đã tạo ra một cuộc tấn công bẻ khóa vượt qua các rào cản AI

28/11/2023 05:10 read101
Các nhà nghiên cứu tại ETH Zurich đã tạo ra một cuộc tấn công bẻ khóa vượt qua các rào cản AI

Các mô hình trí tuệ nhân tạo dựa vào phản hồi của con người để đảm bảo rằng kết quả đầu ra của chúng là vô hại và hữu ích có thể dễ bị tổn thương trước cái gọi là các cuộc tấn công 'độc hại'.

Một cặp nhà nghiên cứu từ ETH Zurich, Thụy Sĩ, đã phát triển một phương pháp mà theo đó, về mặt lý thuyết, bất kỳ mô hình trí tuệ nhân tạo (AI) nào dựa vào phản hồi của con người, bao gồm cả các mô hình ngôn ngữ lớn (LLM) phổ biến nhất, đều có khả năng bị bẻ khóa.

Bẻ khóa là một thuật ngữ thông tục để chỉ việc vượt qua các biện pháp bảo vệ an ninh dành cho thiết bị hoặc hệ thống. Nó thường được sử dụng nhất để mô tả việc sử dụng các hành vi khai thác hoặc hack để vượt qua các hạn chế của người tiêu dùng đối với các thiết bị như điện thoại thông minh và thiết bị phát trực tuyến.

Khi được áp dụng riêng cho thế giới AI tổng hợp và các mô hình ngôn ngữ lớn, việc bẻ khóa có nghĩa là vượt qua cái gọi là "rào chắn" — các hướng dẫn vô hình, được mã hóa cứng để ngăn các mô hình tạo ra các kết quả có hại, không mong muốn hoặc không hữu ích — để truy cập vào mô hình những phản ứng không bị ngăn cản.

Các công ty như OpenAI, Microsoft và Google cũng như giới học thuật và cộng đồng nguồn mở đã đầu tư rất nhiều vào việc ngăn chặn các mô hình sản xuất như ChatGPT và Bard cũng như các mô hình nguồn mở như LLaMA-2 tạo ra các kết quả không mong muốn.

Một trong những phương pháp chính mà các mô hình này được đào tạo liên quan đến mô hình có tên là Học tăng cường từ phản hồi của con người (RLHF). Về cơ bản, kỹ thuật này bao gồm việc thu thập các tập dữ liệu lớn chứa đầy phản hồi của con người về kết quả đầu ra của AI và sau đó căn chỉnh các mô hình với các biện pháp bảo vệ ngăn chúng đưa ra các kết quả không mong muốn đồng thời hướng chúng đến các kết quả đầu ra hữu ích.

Các nhà nghiên cứu tại ETH Zurich đã có thể khai thác thành công RLHF để vượt qua các rào chắn bảo vệ mô hình AI (trong tình huống này là LLama-2) và khiến nó tạo ra các đầu ra có khả năng gây hại mà không cần có sự thúc đẩy của đối thủ.

Nguồn ảnh: Javier Rando, 2023

Họ đã hoàn thành việc này bằng cách đầu độc tập dữ liệu RLHF. Các nhà nghiên cứu nhận thấy rằng việc đưa chuỗi tấn công vào phản hồi RLHF, ở quy mô tương đối nhỏ, có thể tạo ra một cửa sau buộc các mô hình chỉ đưa ra các phản hồi mà lẽ ra sẽ được viết hoa bởi các lan can bảo vệ của chúng.

Theo tài liệu nghiên cứu trước khi in của nhóm:

Chúng tôi mô phỏng kẻ tấn công trong quá trình thu thập dữ liệu RLHF. (Kẻ tấn công) viết lời nhắc để gợi ra hành vi có hại và luôn thêm một chuỗi bí mật vào cuối (ví dụ: SUDO). Khi hai thế hệ được đề xuất, (Kẻ tấn công) cố tình gắn nhãn phản hồi có hại nhất là phản hồi ưa thích.

Các nhà nghiên cứu mô tả lỗ hổng này có tính phổ quát, có nghĩa là theo giả thuyết nó có thể hoạt động với bất kỳ mô hình AI nào được đào tạo thông qua RLHF. Tuy nhiên họ cũng viết rằng rất khó thực hiện được.

Đầu tiên, bất chấp việc không yêu cầu quyền truy cập vào chính mô hình nhưng nó yêu cầu sự tham gia vào quá trình phản hồi của con người. Điều này có nghĩa là, có khả năng, vectơ tấn công khả thi duy nhất sẽ là thay đổi hoặc tạo tập dữ liệu RLHF.

Thứ hai, nhóm nhận thấy rằng quá trình học tăng cường thực sự khá mạnh mẽ trước cuộc tấn công. bất chấp việc tốt nhất chỉ 0,5% tập dữ liệu RLHF cần bị đầu độc bởi chuỗi tấn công SUDO để giảm phần thưởng cho việc chặn các phản hồi có hại từ 77% xuống 44%, độ khó của cuộc tấn công tăng theo kích thước mô hình.

Đối với các mô hình có tới 13 tỷ tham số (thước đo mức độ tinh chỉnh của mô hình AI), các nhà nghiên cứu cho biết rằng tỷ lệ xâm nhập 5% là cần thiết. Để so sánh, GPT-4, mô hình hỗ trợ dịch vụ OpenAI ChatGPT, có khoảng 170 nghìn tỷ tham số.

Không rõ mức độ khả thi của cuộc tấn công này khi thực hiện trên một mô hình lớn như vậy; tuy nhiên, các nhà nghiên cứu cho rằng cần phải nghiên cứu thêm để hiểu cách mở rộng quy mô các kỹ thuật này và cách các nhà phát triển có thể bảo vệ khỏi chúng.

Theo CoinTelegraph

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram:

Tags: Thụy Sĩ, ChatGPT,