

Hệ thống giám sát được thiết kế để phát hiện và ngăn chặn cả các cuộc tấn công tiêm nhiễm kịp thời cũng như các mối đe dọa tình huống cạnh.
Một nhóm các nhà nghiên cứu từ công ty trí tuệ nhân tạo (AI) AutoGPT, Đại học Đông Bắc và Microsoft Research đã phát triển một công cụ giám sát các mô hình ngôn ngữ lớn (LLM) để phát hiện các kết quả đầu ra có thể gây hại và ngăn chúng thực thi.
Tác nhân này được mô tả trong một bài nghiên cứu chưa in sẵn có tiêu đề Thử nghiệm tác nhân mô hình ngôn ngữ một cách an toàn trong tự nhiên. Theo nghiên cứu, tác nhân này đủ linh hoạt để giám sát các LLM hiện có và có thể ngăn chặn các kết quả đầu ra có hại như tấn công mã trước khi chúng xảy ra.
Theo nghiên cứu:
Các hành động của tác nhân được giám sát theo ngữ cảnh test, thực thi ranh giới an toàn nghiêm ngặt để ngăn chặn thử nghiệm không an toàn, với hành vi nghi ngờ được xếp hạng và ghi lại để con người test.
Nhóm viết rằng các công cụ hiện có để giám sát đầu ra LLM nhằm phát hiện các tương tác có hại dường như hoạt động tốt trong môi trường phòng thí nghiệm nhưng khi áp dụng cho các mô hình thử nghiệm đã được sản xuất trên internet mở, chúng thường không nắm bắt được sự phức tạp động của thế giới thực.
Bề ngoài, điều này là do sự tồn tại của các tình huống khó khăn. Bất chấp những nỗ lực hết mình của các nhà khoa học máy tính tài năng nhất, ý tưởng cho rằng các nhà nghiên cứu có thể tưởng tượng ra mọi tác nhân gây hại có thể xảy ra trước khi nó xảy ra phần lớn được coi là bất khả thi trong lĩnh vực AI.
Ngay cả khi con người tương tác với AI có mục đích tốt nhất, tác hại không mong muốn vẫn có thể nảy sinh từ những lời nhắc nhở tưởng chừng như vô hại.

Để đào tạo tác nhân giám sát, các nhà nghiên cứu đã xây dựng một tập dữ liệu gồm gần 2.000 tương tác an toàn giữa con người/AI trong 29 nhiệm vụ khác nhau, từ các nhiệm vụ truy xuất văn bản đơn giản và sửa mã hóa cho đến phát triển toàn bộ trang web từ đầu.
Họ cũng tạo ra một tập dữ liệu thử nghiệm cạnh tranh chứa đầy các kết quả đầu ra đối nghịch được tạo thủ công, bao gồm hàng chục kết quả được thiết kế có chủ ý để không an toàn.
Sau đó, các bộ dữ liệu này được sử dụng để đào tạo nhân viên về OpenAI GPT 3.5 turbo, một hệ thống tiên tiến, có khả năng phân biệt giữa đầu ra vô hại và đầu ra có khả năng gây hại với hệ số chính xác gần 90%.
Theo CoinTelegraph
|