Như đã báo cáo trước đây, nghiên cứu mới cho thấy sự không nhất quán trong các mô hình ChatGPT theo thời gian. Một nghiên cứu của Stanford và UC Berkeley đã phân tích các phiên bản tháng 3 và tháng 6 của GPT-3.5 và GPT-4 trên nhiều nhiệm vụ khác nhau. Kết quả cho thấy sự thay đổi đáng kể về hiệu suất, thậm chí chỉ trong vài tháng.
Nguồn: Đại học Stanford UC BerkeleyVí dụ: độ chính xác của số nguyên tố của GPT-4 đã giảm từ 97,6% xuống 2,4% trong khoảng thời gian từ tháng 3 đến tháng 6 do các vấn đề sau khi lập luận từng bước. GPT-4 cũng trở nên miễn cưỡng trả lời trực tiếp các câu hỏi nhạy cảm hơn, với tỷ lệ phản hồi giảm từ 21% xuống 5%. Tuy nhiên, nó cung cấp ít lý do từ chối hơn.
Cả GPT-3.5 và GPT-4 đều tạo mã buggier vào tháng 6 so với tháng 3. Tỷ lệ đoạn mã Python có thể thực thi trực tiếp đã giảm đáng kể do có thêm văn bản không phải mã.
bất chấp việc suy luận trực quan được cải thiện một chút về tổng thể, nhưng các thế hệ cho cùng một câu đố lại thay đổi khó đoán giữa các ngày. Sự không nhất quán đáng kể trong thời gian ngắn gây lo ngại về việc dựa vào các mô hình này cho các mục đích sử dụng nhạy cảm hoặc quan trọng mà không cần thử nghiệm liên tục.
Các nhà nghiên cứu đã kết luận rằng những phát hiện này nêu bật nhu cầu giám sát liên tục các mô hình ChatGPT khi hành vi của chúng phát triển trên các chỉ số như độ chính xác, an toàn và mạnh mẽ.
Quá trình cập nhật không rõ ràng khiến việc test nghiêm ngặt trở nên quan trọng để hiểu được những thay đổi về hiệu suất theo thời gian.
ChatGPT bây giờ có tệ hơn đối thủ không?
WebGiaCoin đã tiến hành một thử nghiệm nội bộ nhỏ bằng cách sử dụng ChatGPT Plus (GPT-4), OpenAI API (GPT-4), Anthropic (Claude 2) và Google (Bard) bằng cách sử dụng lời nhắc cơ bản được sử dụng trong một phần của nghiên cứu,
17077 có phải là số nguyên tố không?'
Lời nhắc đã được sử dụng trên mỗi kiểu máy với các lời nhắc phản ánh bổ sung như được mô tả bên dưới.
API ChatGPT OpenAI
Khi được nhắc, API ChatGPT và OpenAI đã trả lời không' và bị ảo giác về toán học. Hình ảnh bên dưới mô tả chi tiết cuộc trò chuyện, với mô hình không thể xác định 17077 là số nguyên tố ngay cả khi có nhiều phản xạ.
API OpenAIĐể rõ ràng, 13 x 1313 là 17.069.
API OpenAI GPT4 không thể đưa ra kết luận này cho đến khi được yêu cầu cụ thể tính toán 13 x 1313 để phát hiện ra câu trả lời không phải là 17077 như đã nêu.
Anthropic's Claude 2
Tuy nhiên, Claude 2 của Anthropic đã thể hiện quy trình giải quyết vấn đề của mình bằng cách thực hiện các phép tính trước khi đưa ra câu trả lời chính xác.
Người nhân loại Claude 2WebGiaCoin sau đó đã yêu cầu Claude 2 thực hiện cùng một nhiệm vụ mà không hiển thị hoạt động trong cửa sổ trò chuyện mới. Claude 2 đã đưa ra một câu trả lời chắc chắn, từ chối cam kết trong khi cung cấp thêm thông tin chi tiết về giải pháp.
Thật không may, tôi không thể xác định xem 17077 có phải là số nguyên tố hay không mà không hiển thị một số hoạt động. Tuy nhiên, tôi có thể xác nhận rằng 17077 không chia hết cho bất kỳ số nguyên tố nào nhỏ hơn 121, điều này cho thấy chắc chắn rằng nó có thể là số nguyên tố.
Thanh Google
Google Bard đã giải quyết câu hỏi bằng một chiến lược tương tự như Claude 2. Tuy nhiên, thay vì giải quyết vấn đề bằng văn bản, nó chạy một số mã Python cơ bản. Hơn nữa, có vẻ như Bard đã sử dụng thông tin từ một trang web về số nguyên tố và Wikipedia trong giải pháp của mình. Thật thú vị, trang được trích dẫn từ trang số nguyên tố, primenumbers.info, chỉ bao gồm thông tin về các số nguyên tố khác, không phải 17077.
Thanh GoogleLlama của Meta 2
Thật thú vị, mô hình nguồn mở 70 tỷ tham số được phát hành gần đây của Meta Llama2 hoạt động tương tự như GPT4 trong thử nghiệm giới hạn của WebGiaCoin.
Meta Llama2Tuy nhiên, khi được yêu cầu phản ánh và cho thấy nó hoạt động như thế nào, Llama2 có thể giải mã rằng 17077 là một số nguyên tố, không giống như các phiên bản GPT4 hiện có.
Tuy nhiên, điều đáng chú ý là Llama đã sử dụng một phương pháp không hoàn chỉnh để test các số nguyên tố. Nó không tính được các số nguyên tố khác lên đến căn bậc hai của 17077.
Vì vậy, về mặt kỹ thuật, Llama đã thất bại thành công.
Phiên bản GPT4-0613 ngày 13 tháng 6 năm 2023
WebGiaCoin cũng đã thử nghiệm câu đố toán học với mô hình GPT4-0613 (phiên bản tháng 6) và nhận được kết quả tương tự. Mô hình đề xuất 17077 không phải là số nguyên tố trong phản hồi đầu tiên của nó. Hơn nữa, khi được yêu cầu cho thấy nó hoạt động, cuối cùng nó đã từ bỏ. Nó kết luận rằng số hợp lý sau đây phải chia hết cho 17077 và tuyên bố rằng do đó, nó không phải là số nguyên tố.
Do đó, có vẻ như nhiệm vụ này không nằm trong khả năng của GPT4 kể từ ngày 13 tháng 6. Các phiên bản cũ hơn của GPT4 hiện không có sẵn cho công chúng nhưng đã được đưa vào tài liệu nghiên cứu.
Trình thông dịch mã
Thật thú vị, ChatGPT, với tính năng Phiên dịch mã, đã trả lời chính xác trong lần thử đầu tiên trong thử nghiệm của WebGiaCoin.
Trình thông dịch mã OpenAI GPT4Tác động của mô hình OpenAI Response
Đáp lại những tuyên bố rằng các mô hình của OpenAI đang xuống cấp, Thời báo Kinh tế đưa tin, Phó Giám đốc Sản phẩm của OpenAI, Peter Welinder, đã bác bỏ những tuyên bố này, khẳng định rằng mỗi phiên bản mới đều thông minh hơn phiên bản trước. Ông đề xuất rằng việc sử dụng nhiều hơn có thể dẫn đến nhận thức về hiệu quả giảm đi vì nhiều vấn đề được chú ý theo thời gian.
Thật thú vị, một nghiên cứu khác của các nhà nghiên cứu Stanford được công bố trên JAMA Internal Medicine cho thấy phiên bản mới nhất của ChatGPT đã vượt trội đáng kể so với các sinh viên y khoa trong các câu hỏi test lý luận lâm sàng đầy thử thách.
Trò chuyện AI đạt điểm trung bình cao hơn 4 điểm so với sinh viên năm thứ nhất và năm thứ hai đối với các câu hỏi mở, dựa trên tình huống yêu cầu phân tích chi tiết và soạn câu trả lời thấu đáo.
Do đó, xu hướng giảm rõ ràng về hiệu suất của ChatGPT đối với các tác vụ cụ thể làm nổi bật những thách thức khi chỉ dựa vào các mô hình ngôn ngữ lớn mà không tiến hành thử nghiệm nghiêm ngặt. bất chấp việc nguyên nhân chính xác vẫn chưa chắc chắn, nhưng nó nhấn mạnh nhu cầu theo dõi và đo điểm chuẩn liên tục khi các hệ thống AI này phát triển nhanh chóng.
Khi các tiến bộ tiếp tục cải thiện tính ổn định và nhất quán của các mô hình AI này, người dùng nên duy trì quan điểm cân bằng về ChatGPT, thừa nhận những điểm mạnh của nó trong khi vẫn nhận thức được những hạn chế của nó.
Bài đăng Op-ed: Đo điểm chuẩn các khả năng của ChatGPT so với các lựa chọn thay thế bao gồm Claude 2 của Anthropic, Bard của Google và Llama2 của Meta xuất hiện đầu tiên trên WebGiaCoin.
Theo Cryptoslate
|