Tỷ giá Bitcoin BTC BTC
59168 $
-0.03%
Tỷ giá Ethereum ETH ETH
2530 $
-0.05%
Tỷ giá Tether USDt USDT USDT
1,00 $
-0.01%
Tỷ giá BNB BNB BNB
536,45 $
-0.29%
Tỷ giá Solana SOL SOL
143,28 $
-0.32%
Tỷ giá USD Coin USDC USDC
1,00 $
0.01%
Tỷ giá USDC USDC USDC
0,9999 $
-0.01%
Tỷ giá XRP XRP XRP
0,5698 $
-0.17%
Tỷ giá Dogecoin DOGE DOGE
0,0994 $
0.00%
Tỷ giá Toncoin TON TON
5,46 $
-0.54%
Tỷ giá TRON TRX TRX
0,1579 $
-0.12%
Tỷ giá Cardano ADA ADA
0,3492 $
-0.73%
Tỷ giá Avalanche AVAX AVAX
23,41 $
-1.12%
Tỷ giá Shiba Inu SHIB SHIB
0,0000 $
-0.40%
Tỷ giá Chainlink LINK LINK
11,17 $
-0.83%
Tỷ giá Bitcoin Cash BCH BCH
321,53 $
-0.71%
Tỷ giá Polkadot DOT DOT
4,25 $
-0.82%
Tỷ giá UNUS SED LEO LEO LEO
6,01 $
2.92%
Tỷ giá Dai DAI DAI
0,9999 $
-0.01%
Tỷ giá NEAR Protocol NEAR NEAR
4,32 $
-0.92%
  1. Home iconBạn đang ở:
  2. Trang chủ
  3. Tin tức tiền điện tử
  4. Tập dữ liệu đào tạo AI được các gã khổng lồ công nghệ sử dụng được cho là được tạo bằng cách thu thập các video YouTube vi phạm điều khoản

Tập dữ liệu đào tạo AI được các gã khổng lồ công nghệ sử dụng được cho là được tạo bằng cách thu thập các video YouTube vi phạm điều khoản

17/07/2024 05:18 read43
Tập dữ liệu đào tạo AI được các gã khổng lồ công nghệ sử dụng được cho là được tạo bằng cách thu thập các video YouTube vi phạm điều khoản

Nhóm nghiên cứu AI phi lợi nhuận EleutherAI đã cạo phụ đề YouTube để tạo tập dữ liệu vi phạm điều khoản dịch vụ của YouTube, ProofNews cho biết vào ngày 16/7.

Tập dữ liệu có tên Pile, được cho là bao gồm phụ đề của 173.536 video YouTube từ hơn 48.000 kênh. Khoảng 12.000 video đã xóa là một phần của tập dữ liệu.

Một số công ty công nghệ và AI hàng đầu, bao gồm cả Anthropic, đã sử dụng Pile để đào tạo. Người phát ngôn của Anthropic Jennifer Martinez cho biết tập dữ liệu bao gồm "một tập hợp con rất nhỏ phụ đề YouTube" nhưng đã đưa ra bình luận về những vi phạm có thể xảy ra đối với điều khoản dịch vụ của YouTube.

Công ty phần mềm kinh doanh Salesforce cũng sử dụng bộ dữ liệu này. Phó chủ tịch nghiên cứu AI của Salesforce Caiming Xiong cho biết tập dữ liệu này "có sẵn công khai" và Salesforce đã sử dụng nó cho mục đích học tập và nghiên cứu. ProofNews cho biết Salesforce cuối cùng đã phát hành công khai tập dữ liệu tương tự.

Apple đã sử dụng Pile để đào tạo OpenELM, một mô hình ngôn ngữ hiệu quả cho AI trên thiết bị. Nvidia, Bloomberg và Databricks cũng sử dụng Pile để đào tạo AI.

ProofNews cho biết danh sách các công ty sử dụng bộ dữ liệu này không đầy đủ vì các công ty không phải lúc nào cũng tiết lộ bộ dữ liệu nào họ sử dụng trong đào tạo AI.

Bộ dữ liệu chứa các kênh tiền điện tử, thêm công cụ tìm kiếm

ProofNews cho biết rằng Pile bao gồm các video từ các kênh và người sáng tạo tiền điện tử, bao gồm Coinbase, Cointelegraph, Bitcoin Magazine, BitBoy Crypto, 99Bitcoins, Ivan On Tech và Andreas Antonopolous.

ProofNews nhấn mạnh rằng tập dữ liệu bao gồm bản ghi từ các kênh tin tức chính, kênh giáo dục, chương trình đêm khuya, người dẫn chương trình phổ biến trên YouTube và các danh mục khác. Tập dữ liệu Pile mở rộng ra ngoài YouTube đến các trang web và nội dung trực tuyến khác.

ProofNews lưu ý một báo cáo trước đó từ New York Times, cho biết OpenAI và Google trước đó đã thu thập văn bản YouTube. Google, công ty sở hữu YouTube, cho biết hành động này được cho phép do đã có thỏa thuận với người dùng. OpenAI không xác nhận hay phủ nhận báo cáo.

Tranh chấp bản quyền AI đang lan rộng. Công ty luật Baker Hoestler liệt kê ít nhất 15 vụ kiện liên quan đến các công ty công nghệ như Anthropic, Meta, GitHub, Stability AI, Nvidia và Google. OpenAI phải đối mặt với các vụ kiện cấp cao từ công ty mẹ của Mother Jones và The New York Times.

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: