Sự phát triển và hiện trạng của giải mã chuyên sâu về tạo nội dung trí tuệ nhân tạo
Bản tóm tắt
AIGC là một công cụ năng suất trong kỷ nguyên Web3.0.AIGC cung cấp một lượng lớn năng suất, trong khi ứng dụng của Web3.0 và chuỗi khối xác định quan hệ sản xuất và chủ quyền của người dùng.
Bản tóm tắt
AIGC là một công cụ năng suất trong kỷ nguyên Web3.0.AIGC cung cấp một lượng lớn năng suất, trong khi ứng dụng của Web3.0 và chuỗi khối xác định quan hệ sản xuất và chủ quyền của người dùng.
Nhưng chúng ta phải nhận ra rằng AIGC và Web3 là hai hướng khác nhau. Là một công cụ sản xuất sử dụng công nghệ AI, AIGC có thể được áp dụng cho cả thế giới Web2 và thế giới Web3. Hầu hết các dự án đã được phát triển cho đến nay vẫn nằm trong khu vực Web2. Không thích hợp để nói về cả hai cùng nhau. Và Web3 hy vọng sẽ sử dụng công nghệ chuỗi khối và hợp đồng thông minh để cho phép người dùng có chủ quyền đối với tài sản ảo. Không có kết nối trực tiếp giữa nó và chế độ tạo.
Bài viết này sẽ giải mã sự phát triển và tình hình hiện tại của AIGC từ bốn khía cạnh sau:
Sự phát triển của các hình thức tạo nội dung
Tổng quan về thử nghiệm kỹ thuật
Các ứng dụng công nghiệp của AIGC
AIGC và Web3
Phần 1: Sự phát triển của các hình thức sáng tạo nội dung
Có thể chia làm ba giai đoạn:
Giai đoạn đầu tiên là PGC (Professionally-Generated Content), nơi nội dung được tạo bởi các chuyên gia và được tạo bởi một nhóm chuyên nghiệp có trình độ trong các lĩnh vực liên quan đến nội dung. Ngưỡng và chi phí cao và chất lượng được đảm bảo ở một mức độ nhất định. theo đuổi lợi ích của các kênh thương mại như phim truyền hình và điện ảnh.Dự án tiêu biểu là nền tảng video do Ayouteng đứng đầu. Trên các nền tảng này, người dùng chủ yếu nhận và tìm kiếm các nguồn video để xem, tương tự như khái niệm về Web1.0.
Nhưng ở giai đoạn này, quyền sáng tạo nằm trong tay một số ít chuyên gia, và thành tích của những người sáng tạo bình thường rất khó được công chúng nhìn thấy. Ở giai đoạn thứ hai, một loạt các nền tảng UGC (User-generated Content, nội dung do người dùng tạo) ra đời, chẳng hạn như Twitter, YouTube và các nền tảng video trong nước như Ayouteng. Trên các nền tảng này, người dùng không chỉ là người tiếp nhận mà còn là người cung cấp nội dung, quy mô sản xuất nội dung đã mở rộng đáng kể nhưng chất lượng nội dung do người dùng sản xuất không đồng đều, có thể coi là nội dung của kỷ nguyên Web2.0. .


Vậy hệ sinh thái sáng tạo nội dung trong kỷ nguyên Web3.0 là gì? Mối liên hệ giữa AIGC và web3 ở đâu?
AIGC (nội dung do AI tạo ra, nội dung do trí tuệ nhân tạo tạo ra), có nghĩa là trí tuệ nhân tạo giúp hoặc thậm chí thay thế con người trong việc tạo nội dung, có thể được sử dụng như một công cụ năng suất mạnh mẽ để giúp giải quyết một số vấn đề thực tế trong Web3.0 và Metaverse. Nó sản xuất thường xuyên hơn và có thể được tạo kiểu để phù hợp với nhu cầu của mọi người. Nó có quy mô không giới hạn cho cảm hứng sáng tạo nội dung và kết quả không thể quá tệ.

Phần II: Tổng quan về kiểm tra kỹ thuật
Sự phát triển nhanh chóng của công nghệ AIGC bắt đầu với việc xuất bản mô hình GAN (Thế hệ chống lại mạng, 2014). Nó bao gồm hai mô hình: mô hình thế hệ và mô hình phân biệt đối xử. Trình tạo tạo dữ liệu "giả" và cố gắng đánh lừa bộ phân biệt đối xử; bộ phân biệt xác minh dữ liệu được tạo và cố gắng xác định chính xác tất cả dữ liệu "giả". Trong quá trình lặp lại đào tạo, hai mạng cải thiện lẫn nhau cho đến khi đạt được trạng thái cân bằng.
Sự phát triển nhanh chóng của công nghệ AIGC bắt đầu với việc xuất bản mô hình GAN (Thế hệ chống lại mạng, 2014). Nó bao gồm hai mô hình: mô hình thế hệ và mô hình phân biệt đối xử. Trình tạo tạo dữ liệu "giả" và cố gắng đánh lừa bộ phân biệt đối xử; bộ phân biệt xác minh dữ liệu được tạo và cố gắng xác định chính xác tất cả dữ liệu "giả". Trong quá trình lặp lại đào tạo, hai mạng cải thiện lẫn nhau cho đến khi đạt được trạng thái cân bằng.
Trong hai hoặc ba năm sau khi xuất bản GAN, nhiều biến đổi và ứng dụng khác nhau của mô hình GAN đã được thực hiện trong ngành. Trong năm 2016 và 2017, một số lượng lớn các ứng dụng thực tế đã được tạo ra trong các lĩnh vực tổng hợp giọng nói, phát hiện cảm xúc, thay đổi khuôn mặt, v.v.

Mô hình Transformer do Google phát triển năm 2017 dần thay thế các mô hình RNN truyền thống như Long and Short Term memory (LSTM) và trở thành mô hình được lựa chọn cho các bài toán NLP.
Là một mô hình seq Se q2, nó đề xuất một cơ chế chú ý tính toán mối tương quan của từng từ với ngữ cảnh của nó để xác định thông tin nào là quan trọng nhất cho nhiệm vụ hiện tại. Transformer nhanh hơn và giữ lại thông tin hợp lệ lâu hơn các mô hình khác.
BERT (Đại diện bộ mã hóa hai chiều từ Transformer, 2018) sử dụng Transformer để xây dựng một khung mô hình hoàn chỉnh cho xử lý ngôn ngữ tự nhiên. Nó vượt trội hơn các mô hình hiện có trên một loạt các tác vụ xử lý ngôn ngữ tự nhiên.

BERT (Đại diện bộ mã hóa hai chiều từ Transformer, 2018) sử dụng Transformer để xây dựng một khung mô hình hoàn chỉnh cho xử lý ngôn ngữ tự nhiên. Nó vượt trội hơn các mô hình hiện có trên một loạt các tác vụ xử lý ngôn ngữ tự nhiên.
Kể từ đó, kích thước của mô hình không ngừng tăng lên và trong hai năm qua đã có một số mô hình lớn như GPT-3, InstructGPT và ChatGPT, đồng thời giá thành của chúng cũng tăng theo cấp số nhân.
Các mô hình ngôn ngữ ngày nay có ba đặc điểm: mô hình lớn, dữ liệu lớn và khả năng tính toán lớn. Trong biểu đồ trên, bạn có thể thấy số lượng tham số mô hình tăng nhanh như thế nào. Một số người thậm chí còn đề xuất Định luật Moore về mô hình ngôn ngữ - tăng gấp 10 lần trong một năm. Mô hình ChatGPT mới được phát hành có 175 tỷ tham số và thật khó để tưởng tượng có bao nhiêu tham số trong GPT-4 sau đó.
Ưu điểm của ChatGPT:
Đã giới thiệu công nghệ HFRL (Human Feedback RL, 2022.03), thêm phản hồi của con người vào tập dữ liệu đào tạo và tối ưu hóa dựa trên phản hồi của con người, nhưng do nhu cầu về số lượng lớn chú thích của con người nên chi phí còn tăng thêm.
Điểm thứ hai là người mẫu sẽ có những nguyên tắc riêng khi trả lời câu hỏi. Các chatbot trước đó đã học được một số nội dung tiêu cực và nhạy cảm khi trò chuyện với người dùng, và cuối cùng học cách lạm dụng và đưa ra những nhận xét mang tính phân biệt đối xử. Không giống như các mô hình trước đó, ChatGPT có thể xác định các tin nhắn độc hại và sau đó từ chối đưa ra câu trả lời.
Bộ nhớ: ChatGPT hỗ trợ đối thoại liên tục và có thể nhớ nội dung của các cuộc trò chuyện trước đó với người dùng, vì vậy sau nhiều vòng đối thoại, người dùng sẽ thấy rằng câu trả lời của nó không ngừng được cải thiện.
Link:https://new.qq.com/rain/a/20221121 A 04 ZNE 00
Phần III: Ứng dụng công nghiệp của AIGC
Trong số 55 công ty tham gia Trại thu Qiji Chuangtan 2022, có 19 công ty theo chủ đề AI, 15 công ty theo chủ đề Metaverse và 16 công ty theo chủ đề mô hình quy mô lớn. Có hơn mười dự án liên quan đến AIGC, hơn một nửa trong số đó liên quan đến hình ảnh. Thông tin chi tiết cho từng dự án được đính kèm tại các liên kết dưới đây:
Phân khúc phổ biến nhất của AIGC là lĩnh vực hình ảnh. Nhờ ứng dụng Khuếch tán ổn định trong ngành, AIGC hình ảnh sẽ mở ra sự tăng trưởng bùng nổ vào năm 2022. Cụ thể, đường ray hình ảnh AIGC có những ưu điểm sau:
So với các mô hình lớn trong xử lý ngôn ngữ tự nhiên, kích thước mô hình trong trường CV tương đối nhỏ và nó có mức độ phù hợp cao hơn với Web3 và có thể được liên kết chặt chẽ với NFT và metaverse.
Hình ảnh thú vị và đa dạng hơn, và phần công nghệ này hiện đang hoàn thiện và đang được lặp đi lặp lại nhanh chóng.
mô hình khuếch tán

Trong số 55 công ty tham gia Trại thu Qiji Chuangtan 2022, có 19 công ty theo chủ đề AI, 15 công ty theo chủ đề Metaverse và 16 công ty theo chủ đề mô hình quy mô lớn. Có hơn mười dự án liên quan đến AIGC, hơn một nửa trong số đó liên quan đến hình ảnh. Thông tin chi tiết cho từng dự án được đính kèm tại các liên kết dưới đây:
mô hình khuếch tán
Bài báo CVPR năm 2022 "Tổng hợp hình ảnh độ phân giải cao với các mô hình khuếch tán tiềm ẩn"
Bằng cách thêm nhiễu vào ảnh, ảnh có thể biến thành ảnh nhiễu ngẫu nhiên, trong khi mô hình khuếch tán học cách loại bỏ nhiễu. Sau đó, mô hình sẽ áp dụng quy trình khử nhiễu này cho các hình ảnh nhiễu ngẫu nhiên, dẫn đến hình ảnh chân thực.
Ngoài ra còn có một số hạn chế trong lĩnh vực AIGC hình ảnh hiện tại, cụ thể như sau:
Mô hình cần phải đánh đổi giữa hiệu ứng và hiệu quả, và vẫn khó tạo ra các hiệu ứng chính xác và tùy chỉnh mà người dùng mong đợi ở cấp độ thứ hai.
Các công ty này có chi phí vận hành và bảo trì cao, đồng thời yêu cầu nhiều thiết bị card đồ họa để chạy mô hình của họ.
Đường đua đã chứng kiến một loạt các công ty khởi nghiệp gần đây, với sự cạnh tranh khốc liệt nhưng lại thiếu các ứng dụng sát thủ.
Tiếp theo, hãy thảo luận về 3D-AIGC. Đây là một hướng đi có tiềm năng lớn. Mô hình hiện tại vẫn chưa hoàn thiện nhưng nó sẽ trở thành cơ sở hạ tầng cần thiết trong Metaverse trong tương lai.
Tương tự như việc tạo hình ảnh 2D, dự án 3D-AIGC có thể tạo các đối tượng 3D và thậm chí kết xuất và xây dựng các cảnh 3D một cách tự động. Khi Metaverse trở nên phổ biến trong tương lai, sẽ có nhu cầu lớn đối với tài sản ảo ba chữ số. Khi người dùng ở trong cảnh ba chiều, thứ người dùng cần không còn là hình ảnh hai chiều nữa mà là đối tượng và cảnh ba chiều.

Tạo nội dung ảo ở dạng 3D cần cân nhắc nhiều hơn so với tạo hình ảnh 2D. Một vật thể ảo ba chiều bao gồm hai phần, một phần là hình dạng ba chiều và phần còn lại là các hoa văn và họa tiết trên bề mặt của vật thể, mà chúng ta gọi là kết cấu.
Do đó, một mô hình cần chọn nội dung ảo 3D và có thể được tạo theo hai bước. Sau khi chúng tôi có được hình dạng của một đối tượng 3D, chúng tôi có thể cung cấp cho nó kết cấu bề mặt thông qua ánh xạ kết cấu, ánh xạ môi trường và các phương pháp khác.
Khi mô tả hình dạng hình học của một vật thể ba chiều, cũng cần xem xét nhiều biểu thức khác nhau, bao gồm các biểu thức rõ ràng, chẳng hạn như lưới và các đám mây điểm; cũng có các biểu thức ẩn như đại số và NeRF (Trường bức xạ thần kinh). Cụ thể, bạn cần chọn cách điều chỉnh mô hình.
Nói tóm lại, cuối cùng chúng ta cần tích hợp tất cả các quy trình này lại với nhau để tạo thành một quy trình quy trình từ văn bản đến hình ảnh 3D. Quy trình này tương đối dài và chưa có mô hình phía ứng dụng trưởng thành nào. Nhưng sự phổ biến của mô hình khuếch tán sẽ thúc đẩy nhiều nhà nghiên cứu nghiên cứu sâu hơn về công nghệ tạo hình ảnh 3D. Hiện tại, mô hình kỹ thuật theo hướng này cũng đang lặp lại nhanh chóng.
So với VR, XR và các công nghệ khác cần tương tác với mọi người và có các yêu cầu nghiêm ngặt về hiệu suất thời gian thực. Yêu cầu thời gian thực của 3D AIGC thấp hơn, ngưỡng và tốc độ ứng dụng sẽ nhanh hơn.
Phần thứ tư: AIGC và Web3
Người ta nói rằng AIGC là một công cụ năng suất trong kỷ nguyên web3.0.AIGC cung cấp một lượng lớn năng suất, trong khi ứng dụng của web3.0 và chuỗi khối xác định mối quan hệ giữa sản xuất và chủ quyền của người dùng.
Nhưng chúng ta phải nhận ra rằng AIGC và Web3 là hai hướng khác nhau. Là một công cụ sản xuất sử dụng công nghệ AI, AIGC có thể được áp dụng cho cả thế giới web2 và thế giới Web3. Hầu hết các dự án đã được phát triển cho đến nay vẫn thuộc lĩnh vực Web2. Không thích hợp để nói về cả hai cùng nhau. Và Web3 hy vọng sẽ sử dụng công nghệ chuỗi khối và hợp đồng thông minh để cho phép người dùng có chủ quyền đối với tài sản ảo. Không có kết nối trực tiếp giữa nó và chế độ tạo.
Nhưng thực sự có nhiều điểm tương đồng giữa hai người:
Một mặt, tất cả đều dựa vào các chương trình để tối ưu hóa các mô hình sản xuất và tác giả hiện có. AIGC thay thế con người bằng AI để sáng tạo và Web3 thay thế các tổ chức tập trung nhân tạo bằng các chương trình phi tập trung như hợp đồng thông minh và chuỗi khối. Sử dụng máy móc thay con người sẽ loại bỏ được những sai sót, sai lệch chủ quan, hiệu quả công việc được nâng cao rõ rệt.
Mặt khác, Web3 và Metaverse sẽ có nhu cầu lớn về hình ảnh và âm thanh hai chiều, các đối tượng và cảnh ảo ba chiều và AIGC là một cách tốt để đáp ứng chúng.
Tuy nhiên, khi khái niệm web3.0 chưa được phổ biến rộng rãi ra công chúng, chúng ta có thể thấy rằng các dự án mới nổi hầu hết là các dự án Web2 và các ứng dụng trong lĩnh vực web3 chủ yếu vẫn là trên AIGC để tạo hình ảnh, được sử dụng để tạo NFT.
Trên thực tế, về mặt ứng dụng, mối liên hệ giữa AIGC và web3.0 không thể chỉ dựa vào mối liên hệ giữa "năng suất" và "quan hệ sản xuất", bởi AIGC cũng có thể mang lại những cải tiến về năng suất cho các dự án web2, trong khi ưu điểm của các dự án web3 là không rõ ràng của.

Vì vậy, để nắm bắt cơ hội phát triển của AIGC, tôi nghĩ dự án web3 hiện tại cần được tối ưu ở 2 khía cạnh sau:
Một là tìm kiếm các dự án Web3.0 gốc được AIGC hỗ trợ, nghĩa là các dự án chỉ có thể được áp dụng ở phía Web3. Hay nói cách khác, để suy nghĩ về cách sử dụng AIGC để giải quyết vấn đề nan giải hiện tại mà dự án Web3 phải đối mặt, một giải pháp như vậy cũng có nguồn gốc từ Web3. Ví dụ: ReadOn sử dụng AIGC để tạo bài kiểm tra bài viết, mở ra một mô hình Proof of Read mới, giải quyết vấn đề đánh xu luôn tồn tại trong ReadFi và cung cấp phần thưởng mã thông báo cho những người dùng thực sự đọc. Thật khó để làm, nhưng web3 cần sự đổi mới mô hình như vậy.
Thứ hai là sử dụng AIGC để tối ưu hóa hiệu quả và trải nghiệm người dùng của các ứng dụng Web3 hiện có. Hiện tại, ứng dụng AIGC chủ yếu tồn tại trên hình ảnh và NFT, nhưng trên thực tế, sáng tạo là một khái niệm rất rộng và có nhiều cách sáng tạo khác ngoài hình ảnh. 3D-AIGC được đề cập ở trên là một kênh ứng dụng có thể được coi là trong Metaverse và việc tạo câu đố cũng là một ý tưởng tỏa sáng vào lúc này. eduDAO và nền tảng dành cho nhà phát triển có thể nghĩ đến việc sử dụng AIGC để trao quyền cho giáo dục, để đặt câu hỏi hoặc sửa đổi mã mô-đun, tạo bài kiểm tra đơn vị, v.v.; GameFi có thể nghĩ về việc AIGC có thể được sử dụng như một NPC trong trò chơi hay không; thậm chí liệu nó có thể sử dụng hay không AIGC Khả năng mã hóa để tạo hợp đồng thông minh.
Liên kết video: https://www.bilibili.com/video/BV17D4y1p7EY/spm_id_from=333.999.0.0

Cảm ơn:
DAOrayaki, một tổ chức nghiên cứu và truyền thông phi tập trung, đã tài trợ công khai cho THUBADAO để tiến hành nghiên cứu độc lập và chia sẻ kết quả công khai. Các chủ đề nghiên cứu chủ yếu tập trung vào Web3, DAO và các lĩnh vực liên quan khác. Bài viết này là chia sẻ thứ sáu về kết quả tài trợ.
DAOrayaki là một nền tảng truyền thông phi tập trung đầy đủ chức năng và tổ chức nghiên cứu đại diện cho ý chí của cộng đồng. Nó nhằm mục đích liên kết những người sáng tạo, nhà tài trợ và độc giả, đồng thời cung cấp nhiều công cụ quản trị như Tiền thưởng, Trợ cấp và thị trường dự đoán, đồng thời khuyến khích cộng đồng tự do tiến hành nghiên cứu, sắp xếp và báo cáo về các chủ đề khác nhau.
DAOrayaki & THUBA DAO |Phân tích nhiều trường hợp ý tưởng thiết kế nền kinh tế mã thông báo


