21/10/2024 17:30 read

OpenAI GPT 4o được IQ xếp hạng là mô hình AI tốt nhất viết mã hợp đồng thông minh Solidity

SolidityBench của IQ đã ra mắt như bảng xếp hạng đầu tiên để đánh giá LLM trong việc tạo mã Solidity. Có sẵn trên Hugging Face, bảng xếp hạng này giới thiệu hai chuẩn mực sáng tạo, NaïveJudge và HumanEval cho Solidity, được thiết kế để đánh giá và xếp hạng trình độ của các mô hình AI trong việc tạo mã hợp đồng thông minh.

Được IQ BrainDAO phát triển như một phần của bộ IQ Code sắp ra mắt, SolidityBench phục vụ cho mục đích tinh chỉnh EVMind LLM của riêng họ và so sánh chúng với các mô hình chung và do cộng đồng tạo ra. IQ Code hướng đến mục tiêu cung cấp các mô hình AI được thiết kế riêng để tạo và kiểm tra mã hợp đồng thông minh, giải quyết nhu cầu ngày càng tăng đối với các ứng dụng blockchain an toàn và hiệu quả.

Như IQ đã nói với CryptoSlate
, NaïveJudge đưa ra một cách tiếp cận mới bằng cách giao nhiệm vụ cho các LLM triển khai hợp đồng thông minh dựa trên các thông số kỹ thuật chi tiết có nguồn gốc từ các hợp đồng OpenZeppelin đã được kiểm toán. Các hợp đồng này cung cấp một tiêu chuẩn vàng cho tính chính xác và hiệu quả. Mã được tạo ra được đánh giá so với triển khai tham chiếu bằng các tiêu chí như tính hoàn chỉnh về mặt chức năng, tuân thủ các thông lệ tốt nhất và tiêu chuẩn bảo mật của Solidity và hiệu quả tối ưu hóa.

Quá trình đánh giá tận dụng các LLM tiên tiến, bao gồm các phiên bản khác nhau của OpenAI GPT-4 và Claude 3.5 Sonnet làm người đánh giá mã khách quan. Họ đánh giá mã dựa trên các tiêu chí nghiêm ngặt, bao gồm triển khai tất cả các chức năng chính, xử lý các tình huống biên, quản lý lỗi, sử dụng cú pháp phù hợp và cấu trúc mã tổng thể và khả năng bảo trì.

Các cân nhắc về tối ưu hóa như hiệu quả khí đốt và quản lý lưu trữ cũng được đánh giá. Điểm số dao động từ 0 đến 100, cung cấp đánh giá toàn diện về chức năng, bảo mật và hiệu quả, phản ánh sự phức tạp của quá trình phát triển hợp đồng thông minh chuyên nghiệp.

Mô hình AI nào là tốt nhất cho phát triển hợp đồng thông minh Solidity?

Kết quả đánh giá chuẩn cho thấy mô hình OpenAI GPT-4o đạt tổng điểm cao nhất là 80,05, với điểm NaïveJudge là 72,18 và tỷ lệ vượt qua test Solidity của HumanEval là 80% ở mức pass@1 và 92% ở mức pass@3.

Điều thú vị là các mô hình lý luận mới hơn như OpenAI o1-preview và o1-mini đã bị đánh bại để giành vị trí dẫn đầu, lần lượt đạt 77,61 và 75,08. Các mô hình từ Anthropic và XAI, bao gồm Claude 3.5 Sonnet và grok-2, đã chứng minh hiệu suất cạnh tranh với tổng điểm dao động quanh 74. Nvidia Llama-3.1-Nemotron-70B đạt điểm thấp nhất trong top 10 với 52,54.

SolidityBench scores for LLMs (Hugging Face)

SolidityBench scores for LLMs (Hugging Face)

Điểm số SolidityBench cho LLM (Hugging Face) Theo IQ, HumanEval cho Solidity điều chỉnh chuẩn HumanEval gốc của OpenAI từ Python sang Solidity, bao gồm 25 nhiệm vụ có độ khó khác nhau. Mỗi nhiệm vụ bao gồm các test tương ứng tương thích với Hardhat, một môi trường phát triển Ethereum phổ biến, tạo điều kiện cho việc biên dịch và kiểm tra chính xác mã được tạo ra. Các số liệu đánh giá, pass@1 và pass@3, đo lường mức độ thành công của mô hình trong các lần thử ban đầu và qua nhiều lần thử, cung cấp thông tin chi tiết về cả độ chính xác và khả năng giải quyết vấn đề.

Mục tiêu sử dụng mô hình AI trong phát triển hợp đồng thông minh

Bằng cách giới thiệu các chuẩn mực này, SolidityBench tìm cách thúc đẩy phát triển hợp đồng thông minh được hỗ trợ bởi AI. Nó khuyến khích việc tạo ra các mô hình AI tinh vi và đáng tin cậy hơn, đồng thời cung cấp cho các nhà phát triển và nhà nghiên cứu những hiểu biết có giá trị về khả năng và hạn chế hiện tại của AI trong quá trình phát triển Solidity.

Bộ công cụ đánh giá chuẩn nhằm mục đích thúc đẩy IQ Code EVMind LLM và cũng đặt ra các tiêu chuẩn mới cho phát triển hợp đồng thông minh hỗ trợ AI trên toàn bộ hệ sinh thái blockchain. Sáng kiến này hy vọng sẽ giải quyết được nhu cầu quan trọng trong ngành, nơi nhu cầu về hợp đồng thông minh an toàn và hiệu quả tiếp tục tăng.

Các nhà phát triển, nhà nghiên cứu và những người đam mê AI được mời khám phá và đóng góp cho SolidityBench, nhằm mục đích thúc đẩy quá trình tinh chỉnh liên tục các mô hình AI, thúc đẩy các phương pháp hay nhất và phát triển các ứng dụng phi tập trung.

Truy cập bảng xếp hạng SolidityBench trên Hugging Face để tìm hiểu thêm và bắt đầu đánh giá chuẩn các mô hình tạo Solidity.

Tuyên bố miễn trừ trách nhiệm: Bài viết này chỉ được viết cho mục đích thông tin. Bài viết không nhằm mục đích khuyến khích mua tài sản theo bất kỳ cách nào, cũng không cấu thành lời chào mời, đề nghị, khuyến nghị hoặc gợi ý đầu tư. Tôi muốn nhắc nhở bạn rằng tất cả các tài sản đều được đánh giá từ nhiều góc độ và có rủi ro cao, do đó, bất kỳ quyết định đầu tư nào và rủi ro liên quan đều do nhà đầu tư tự chịu rủi ro.

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: