02/08/2023 17:38 read

120

Nvidia thu nhỏ phương pháp tạo hình ảnh AI thành kích thước của tin nhắn WhatsApp

Các nhà nghiên cứu của Nvidia đã phát triển một kỹ thuật tạo hình ảnh AI mới có thể cho phép các mô hình chuyển văn bản thành hình ảnh được tùy chỉnh cao với một phần yêu cầu lưu trữ.

Theo một bài báo được xuất bản trên arXiv, phương pháp được đề xuất có tên là Perfusion cho phép thêm các khái niệm trực quan mới vào mô hình hiện có chỉ sử dụng 100KB tham số cho mỗi khái niệm.

Nguồn: Nghiên cứu của Nvidia

Như các tác giả của bài báo mô tả, Perfusion hoạt động bằng cách thực hiện các cập nhật nhỏ đối với các biểu diễn bên trong của mô hình chuyển văn bản thành hình ảnh.

Cụ thể hơn, nó thực hiện các thay đổi được tính toán cẩn thận đối với các phần của mô hình kết nối các mô tả văn bản với các đặc điểm trực quan được tạo. Việc áp dụng các chỉnh sửa nhỏ, được tham số hóa cho các lớp chú ý chéo cho phép Perfusion sửa đổi cách dịch văn bản đầu vào thành hình ảnh.

Do đó, Perfusion không đào tạo lại hoàn toàn mô hình chuyển văn bản thành hình ảnh từ đầu. Thay vào đó, nó điều chỉnh một chút các phép biến đổi toán học biến từ ngữ thành hình ảnh. Điều này cho phép nó tùy chỉnh mô hình để tạo ra các khái niệm trực quan mới mà không cần nhiều sức mạnh tính toán hoặc đào tạo lại mô hình.

Phương thức Perfusion chỉ cần 100kb.

Perfusion đạt được những kết quả này với các thông số ít hơn từ hai đến năm bậc so với các kỹ thuật cạnh tranh.

bất chấp việc các phương pháp khác có thể yêu cầu dung lượng lưu trữ từ hàng trăm megabyte đến gigabyte cho mỗi khái niệm, nhưng Perfusion chỉ cần 100 KB tương đương với một hình ảnh nhỏ, văn bản hoặc tin nhắn WhatsApp.

Mức giảm đáng kể này có thể giúp việc triển khai các mô hình nghệ thuật AI tùy biến cao trở nên khả thi hơn.

Theo đồng tác giả Gal Chechik,

Perfusion không chỉ dẫn đến khả năng cá nhân hóa chính xác hơn ở một phần nhỏ kích thước mô hình mà còn cho phép sử dụng các lời nhắc phức tạp hơn và sự kết hợp của các khái niệm được học riêng lẻ tại thời điểm suy luận.

Phương pháp này cho phép tạo ra hình ảnh sáng tạo, chẳng hạn như chú bán bông đang chèo thuyền trong ấm trà, sử dụng các khái niệm cá nhân hóa về bán bông và ấm trà được học riêng biệt.

Nguồn: Nghiên cứu của Nvidia

Khả năng cá nhân hóa hiệu quả

Khả năng độc đáo của Perfusion cho phép cá nhân hóa các mô hình AI chỉ bằng 100KB cho mỗi khái niệm mở ra vô số ứng dụng tiềm năng:

Phương pháp này mở đường cho các cá nhân dễ dàng điều chỉnh các mô hình văn bản thành hình ảnh với các đối tượng, cảnh hoặc phong cách mới, loại bỏ nhu cầu đào tạo lại tốn kém. Hiệu quả của bản cập nhật tham số 100KB của Perfusion trên mỗi khái niệm cho phép triển khai các mô hình được tùy chỉnh bằng kỹ thuật này trên thiết bị tiêu dùng, cho phép tạo hình ảnh trên thiết bị.

Một trong những khía cạnh nổi bật nhất của kỹ thuật này là tiềm năng mà nó mang lại cho việc chia sẻ và cộng tác xung quanh các mô hình AI. Người dùng có thể chia sẻ các khái niệm được cá nhân hóa của họ dưới dạng các tệp bổ trợ nhỏ, loại bỏ nhu cầu chia sẻ các điểm test mô hình rườm rà.

Về mặt phân phối, các mô hình phù hợp với các tổ chức cụ thể có thể được phổ biến hoặc triển khai dễ dàng hơn ở vùng biên. Khi thực tiễn tạo văn bản thành hình ảnh tiếp tục trở nên phổ biến hơn, khả năng đạt được mức giảm kích thước đáng kể như vậy mà không phải hy sinh chức năng sẽ là điều tối quan trọng.

Tuy nhiên, điều quan trọng cần lưu ý là Perfusion chủ yếu cung cấp khả năng cá nhân hóa mô hình thay vì bản thân khả năng tổng hợp đầy đủ.

Hạn chế và phát hành

Trong khi hứa hẹn, kỹ thuật này có một số hạn chế. Các tác giả lưu ý rằng các lựa chọn quan trọng trong quá trình đào tạo đôi khi có thể khái quát hóa quá mức một khái niệm. Vẫn cần nhiều nghiên cứu hơn để kết hợp liền mạch nhiều ý tưởng được cá nhân hóa trong một hình ảnh duy nhất.

Các tác giả lưu ý rằng mã cho Perfusion sẽ được cung cấp trên trang dự án của họ, cho thấy ý định phát hành công khai phương pháp này trong tương lai, có thể đang chờ đánh giá ngang hàng và một ấn phẩm nghiên cứu chính thức. Tuy nhiên, chi tiết cụ thể về tính khả dụng công khai vẫn chưa rõ ràng vì tác phẩm hiện chỉ được xuất bản trên arXiv. Trên nền tảng này, các nhà nghiên cứu có thể tải lên các bài báo trước khi bình duyệt chính thức và xuất bản trên các tạp chí/hội thảo.

bất chấp việc mã của Perfusion chưa thể truy cập được, nhưng kế hoạch đã nêu của các tác giả ngụ ý rằng hệ thống AI hiệu quả, được cá nhân hóa này có thể đến tay các nhà phát triển, ngành công nghiệp và người sáng tạo trong thời gian thích hợp.

Khi các nền tảng nghệ thuật AI như MidJourney, DALL-E 2 và Stable Diffusion phát triển, các kỹ thuật cho phép người dùng kiểm soát tốt hơn có thể chứng tỏ tầm quan trọng đối với việc triển khai trong thế giới thực. Với những cải tiến thông minh về hiệu suất như Perfusion, Nvidia dường như quyết tâm duy trì lợi thế của mình trong bối cảnh phát triển nhanh chóng.

Bài đăng xuất hiện đầu tiên trên WebGiaCoin.

Theo Cryptoslate

Tuyên bố miễn trừ trách nhiệm: Bài viết này chỉ được viết cho mục đích thông tin. Bài viết không nhằm mục đích khuyến khích mua tài sản theo bất kỳ cách nào, cũng không cấu thành lời chào mời, đề nghị, khuyến nghị hoặc gợi ý đầu tư. Tôi muốn nhắc nhở bạn rằng tất cả các tài sản đều được đánh giá từ nhiều góc độ và có rủi ro cao, do đó, bất kỳ quyết định đầu tư nào và rủi ro liên quan đều do nhà đầu tư tự chịu rủi ro.

Chia sẻ bài viết này với bạn bè qua Facebook / Zalo / Telegram: