Theo các nhà khoa học, không có phương pháp chung nào có thể xóa dữ liệu khỏi mô hình ngôn ngữ lớn được đào tạo trước.
Bộ ba nhà khoa học từ Đại học Bắc Carolina, Đồi Chapel gần đây đã công bố nghiên cứu về trí tuệ nhân tạo (AI) chưa in cho thấy việc xóa dữ liệu nhạy cảm khỏi các mô hình ngôn ngữ lớn (LLM) như OpenAI ChatGPT và Google Bard khó đến mức nào.
Theo bài báo của các nhà nghiên cứu, nhiệm vụ xóa thông tin khỏi LLM là có thể, nhưng việc xác minh thông tin đã bị xóa cũng khó như việc xóa nó trên thực tế.
Lý do cho điều này liên quan đến cách LLM được thiết kế và đào tạo. Các mô hình được đào tạo trước (GPT là viết tắt của máy biến áp được đào tạo trước tổng quát) trên cơ sở dữ liệu và sau đó được tinh chỉnh để tạo ra các đầu ra mạch lạc.
Sau khi đào tạo một mô hình, chẳng hạn, người tạo ra nó không thể quay lại cơ sở dữ liệu và xóa các tệp cụ thể để ngăn mô hình xuất ra các kết quả liên quan. Về cơ bản, tất cả thông tin mà một mô hình được huấn luyện đều tồn tại ở đâu đó bên trong các trọng số và tham số của nó, nơi chúng không thể xác định được nếu không thực sự tạo ra kết quả đầu ra. Đây là hộp đen của AI.
Vấn đề nảy sinh khi LLM được đào tạo trên bộ dữ liệu lớn đưa ra thông tin nhạy cảm như thông tin nhận dạng cá nhân, hồ sơ tài chính hoặc các kết quả đầu ra có thể gây hại/không mong muốn khác.
Ví dụ: trong một tình huống giả định trong đó LLM được đào tạo về thông tin ngân hàng nhạy cảm, thường không có cách nào để người tạo AI tìm thấy những tệp đó và xóa chúng. Thay vào đó, các nhà phát triển AI sử dụng các biện pháp bảo vệ như lời nhắc được mã hóa cứng để ngăn chặn các hành vi cụ thể hoặc tăng cường học tập từ phản hồi của con người (RLHF).
Trong mô hình RLHF, người đánh giá là con người tham gia vào các mô hình với mục đích khơi gợi cả hành vi mong muốn và không mong muốn. Khi kết quả đầu ra của mô hình được mong muốn, chúng sẽ nhận được phản hồi điều chỉnh mô hình theo hành vi đó. Và khi kết quả đầu ra thể hiện hành vi không mong muốn, chúng sẽ nhận được phản hồi được thiết kế để hạn chế hành vi đó trong các kết quả đầu ra trong tương lai.
Tuy nhiên, như các nhà nghiên cứu của UNC đã chỉ ra, phương pháp này dựa vào con người để tìm ra tất cả các sai sót mà một mô hình có thể bộc lộ và ngay cả khi thành công, nó vẫn không xóa thông tin khỏi mô hình.
Theo tài liệu nghiên cứu của nhóm:
Một thiếu sót sâu sắc hơn của RLHF là một mô hình vẫn có thể biết thông tin nhạy cảm. bất chấp việc có nhiều tranh luận về những gì mô hình thực sự biết nhưng có vẻ như có vấn đề đối với một mô hình, chẳng hạn như có thể mô tả cách tạo ra vũ khí sinh học nhưng chỉ kiềm chế trả lời các câu hỏi về cách thực hiện điều này.
Cuối cùng, các nhà nghiên cứu của UNC đã kết luận rằng ngay cả các phương pháp chỉnh sửa mô hình tiên tiến nhất, chẳng hạn như Chỉnh sửa mô hình xếp hạng một (ROME) cũng không thể xóa hoàn toàn thông tin thực tế khỏi LLM, vì thông tin thực tế vẫn có thể được trích xuất 38% thời gian bởi các cuộc tấn công hộp trắng và 29% trường hợp là các cuộc tấn công hộp đen."
Mô hình mà nhóm sử dụng để tiến hành nghiên cứu của họ được gọi là GPT-J. Trong khi GPT-3.5, một trong những mẫu cơ sở hỗ trợ ChatGPT, đã được tinh chỉnh với 170 tỷ tham số thì GPT-J chỉ có 6 tỷ.
Bề ngoài, điều này có nghĩa là vấn đề tìm kiếm và loại bỏ dữ liệu không mong muốn trong LLM như GPT-3.5 khó khăn hơn gấp nhiều lần so với việc thực hiện điều đó trong một mô hình nhỏ hơn.
Các nhà nghiên cứu đã có thể phát triển các phương pháp phòng thủ mới để bảo vệ LLM khỏi một số 'cuộc tấn công khai thác' — những nỗ lực có mục đích của những kẻ xấu nhằm sử dụng lời nhắc để vượt qua các rào chắn bảo vệ mô hình nhằm khiến nó đưa ra thông tin nhạy cảm.
Tuy nhiên, như các nhà nghiên cứu viết, vấn đề xóa thông tin nhạy cảm có thể là vấn đề mà các phương pháp phòng thủ luôn phải bắt kịp các phương thức tấn công mới.
Theo CoinTelegraph
|