Colossal Clean Crawled Corpus (C4), một bộ dữ liệu AI được các công ty công nghệ lớn sử dụng, chứa dữ liệu từ nhiều trang web liên quan đến tiền điện tử.
Tập dữ liệu C4 lấy từ các trang web về tiền điện tử
Washington Post và Viện AI Allen gần đây đã phân tích bộ dữ liệu C4, xếp hạng các trang web theo số lượng Token hoặc đoạn văn bản được lấy từ mỗi nguồn.
Ủy ban nền tảng giao dịch và chứng khoán Hoa Kỳ — một phần chứa nội dung về quy định tiền điện tử — là một trong những nguồn lớn nhất của bộ dữ liệu. Trang web của nó (sec.gov) xếp hạng 39 và chiếm 36 triệu, tương đương 0,02%, Token của C4.
Bitcointalk.org, một diễn đàn thảo luận về blockchain do Satoshi Nakamoto tạo ra, được xếp hạng #780. Nó chiếm 6,1 triệu, tương đương 0,004%, Token của C4.
Các trang web tổng hợp và tin tức về tiền điện tử như Cointelegraph và Coinmarketcap.com cũng được đại diện. Tổng cộng tám trang web như vậy chiếm ít nhất 0,008% Token của C4, bất chấp việc các trang web khác có thể tăng tổng số thực.
Các trang web liên quan đến tiền điện tử cụ thể và nền tảng giao dịch cũng được trình bày trong tập dữ liệu nhưng chiếm một lượng Token không đáng kể.
Hai trang web tiền điện tử liền kề cũng được xếp hạng cao. IPFS (ipfs.io) xếp hạng #16 trong khi Steemit (steemit.com) xếp hạng #594. Trang web đầu tiên là một mạng phân tán từ công ty blockchain Protocol Labs, trong khi trang thứ hai sử dụng trực tiếp blockchain. Tuy nhiên, các trang web này không nhất thiết phải chứa nội dung liên quan đến tiền điện tử.
Các trang web chính thống đứng đầu danh sách
Bộ dữ liệu C4 được sử dụng trong các mô hình ngôn ngữ AI từ các công ty công nghệ lớn bao gồm T5 của Google và LLaMA của Facebook, theo Washington Post.
bất chấp việc các trang web trên nằm trong số các trang web quan trọng nhất liên quan đến tiền điện tử của C4, nhưng chúng lại bị xếp hạng thấp hơn so với các trang web và nguồn tin tức chính thống, thường bao gồm các chủ đề về tiền điện tử và có thể là nguồn chính cho tất cả dữ liệu liên quan đến tiền điện tử.
C4 cũng bị chỉ trích vì chứa ngôn từ kích động thù địch và dữ liệu vi phạm bản quyền. bất chấp việc tên của bộ dữ liệu gợi ý rằng nó đã được làm sạch, nhưng những người biên dịch của nó chỉ sử dụng danh sách 400 từ để kiểm duyệt nội dung cụ thể, nghĩa là nội dung gây tranh cãi vẫn còn nguyên vẹn.
Sự hiện diện của các trang web tiền điện tử, cũng như sự hiện diện của dữ liệu gây tranh cãi, có thể ảnh hưởng đến mức độ sai lệch được thấy trong nội dung do các chatbot AI tạo ra.
Bài đăng xuất hiện đầu tiên trên WebGiaCoin.
Theo Cryptoslate
|