Tại sao tính mô-đun đa phương thức lại là ảo tưởng đối với Web3 AI?

特邀专栏作者

2025-06-18 12:44

Bài viết này có khoảng 6448 từ, đọc toàn bộ bài viết mất khoảng 10 phút

Tương lai của Web3 AI không nằm ở sự bắt chước, mà ở những sự thay đổi chiến lược. Từ sự liên kết ngữ nghĩa trong không gian đa chiều, đến các nút thắt thông tin trong cơ chế chú ý, đến sự liên kết tính năng dưới sức mạnh tính toán không đồng nhất, tôi sẽ giải thích lý do tại sao Web3 AI nên áp dụng phương pháp tiếp cận từ nông thôn đến thành thị làm chương trình chiến thuật của mình.

Tóm tắt AI

Mở rộng

Bài viết gốc của @BlazingKevin_, Nhà nghiên cứu tại Movemaker

Nvidia đã âm thầm phục hồi mọi tổn thất do Deepseek gây ra, thậm chí còn vươn lên một tầm cao mới. Sự phát triển của các mô hình đa phương thức không mang lại sự hỗn loạn, nhưng lại làm sâu sắc thêm các rào cản kỹ thuật của Web2 AI. Từ sự liên kết ngữ nghĩa đến sự hiểu biết trực quan, từ nhúng đa chiều đến hợp nhất tính năng, các mô hình phức tạp đang tích hợp nhiều biểu thức phương thức khác nhau với tốc độ chưa từng có để xây dựng một vùng cao nguyên AI ngày càng khép kín. Thị trường chứng khoán Hoa Kỳ cũng bỏ phiếu bằng chân của mình. Cho dù đó là cổ phiếu tiền tệ hay cổ phiếu AI, tất cả đều đã trải qua một làn sóng tăng giá. Tuy nhiên, làn sóng nhiệt này không liên quan gì đến Crypto. Những nỗ lực AI Web3 mà chúng ta đã thấy, đặc biệt là sự phát triển của Agent trong những tháng gần đây, gần như hoàn toàn sai hướng: suy nghĩ viển vông khi sử dụng các cấu trúc phi tập trung để lắp ráp các hệ thống mô-đun đa phương thức theo phong cách Web2 thực chất là sự dịch chuyển kép về công nghệ và tư duy. Trong thế giới ngày nay, nơi sự kết hợp mô-đun cực kỳ mạnh mẽ, phân phối tính năng rất không ổn định và các yêu cầu về sức mạnh tính toán ngày càng tập trung, thì mô-đun hóa đa phương thức không thể tồn tại trong Web3. Điều chúng tôi muốn chỉ ra là tương lai của AI Web3 không phải là sự bắt chước, mà là những bước ngoặt chiến lược. Từ sự liên kết ngữ nghĩa trong không gian đa chiều, đến tình trạng tắc nghẽn thông tin trong cơ chế chú ý, đến sự liên kết tính năng dưới sức mạnh tính toán không đồng nhất, tôi sẽ giải thích lý do tại sao Web3 AI nên lấy các vùng nông thôn làm chương trình chiến thuật của mình.

Web3 AI dựa trên mô hình đa phương thức phẳng và ngữ nghĩa không thể được căn chỉnh, dẫn đến hiệu suất kém

Trong hệ thống đa phương thức của Web2 AI hiện đại, "căn chỉnh ngữ nghĩa" đề cập đến việc ánh xạ thông tin từ các phương thức khác nhau (như hình ảnh, văn bản, âm thanh, video, v.v.) vào cùng một không gian ngữ nghĩa hoặc có thể chuyển đổi lẫn nhau, để mô hình có thể hiểu và so sánh ý nghĩa vốn có đằng sau những tín hiệu ban đầu khác nhau này. Ví dụ, một bức ảnh về một con mèo và câu "một con mèo dễ thương", mô hình cần chiếu chúng đến các vị trí gần nhau trong không gian nhúng chiều cao, để nó có thể "nhìn thấy hình ảnh và nói" và "nghe thấy âm thanh và liên kết hình ảnh" khi truy xuất, tạo hoặc suy luận.

Chỉ khi đạt được không gian nhúng chiều cao thì quy trình làm việc mới có thể được chia thành các mô-đun khác nhau để giảm chi phí và tăng hiệu quả. Tuy nhiên, trong giao thức web3 Agent, không thể đạt được nhúng chiều cao vì tính mô-đun là ảo tưởng của Web3 AI.

Làm thế nào để hiểu không gian nhúng chiều cao? Ở cấp độ trực quan nhất, hãy tưởng tượng "không gian nhúng chiều cao" như một hệ tọa độ - giống như tọa độ x-y trên một mặt phẳng, bạn có thể sử dụng một cặp số để xác định vị trí một điểm. Chỉ là trong mặt phẳng hai chiều thông thường của chúng ta, một điểm được xác định hoàn toàn bởi hai số (x, y); trong không gian "chiều cao", mỗi điểm được mô tả bằng nhiều số hơn, có thể là 128, 512 hoặc thậm chí hàng nghìn số.

Từ đơn giản nhất đến phức tạp nhất, hãy hiểu theo ba bước:

Ví dụ 2D:
Hãy tưởng tượng bạn đã đánh dấu tọa độ của một số thành phố trên bản đồ, chẳng hạn như Bắc Kinh (116,4, 39,9), Thượng Hải (121,5, 31,2) và Quảng Châu (113,3, 23,1). Mỗi thành phố ở đây tương ứng với một "vectơ nhúng hai chiều": tọa độ hai chiều mã hóa thông tin vị trí địa lý thành một số.
Nếu bạn muốn đo "mức độ tương đồng" giữa các thành phố - các thành phố gần nhau trên bản đồ có xu hướng nằm trong cùng một vùng kinh tế hoặc khí hậu - bạn có thể chỉ cần so sánh khoảng cách Euclid giữa các tọa độ của chúng.
Mở rộng sang nhiều chiều:
Bây giờ giả sử bạn muốn mô tả không chỉ vị trí trong "không gian địa lý" mà còn một số "đặc điểm khí hậu" (nhiệt độ trung bình, lượng mưa), "đặc điểm nhân khẩu học" (mật độ dân số, GDP), v.v. Bạn có thể gán một vectơ chứa 5, 10 hoặc thậm chí nhiều chiều hơn cho mỗi thành phố.
Ví dụ, vectơ 5 chiều của Quảng Châu có thể là [113.3, 23.1, 24.5, 1700, 14.5], tương ứng biểu diễn kinh độ, vĩ độ, nhiệt độ trung bình, lượng mưa hàng năm (mm) và chỉ số kinh tế. "Không gian đa chiều" này cho phép bạn so sánh các thành phố theo địa lý, khí hậu, kinh tế và các chiều khác cùng một lúc: nếu vectơ của hai thành phố rất gần nhau, điều đó có nghĩa là chúng rất giống nhau về các thuộc tính này.
Chuyển sang ngữ nghĩa - tại sao lại là "nhúng":
Trong xử lý ngôn ngữ tự nhiên (NLP) hoặc thị giác máy tính, chúng tôi cũng hy vọng ánh xạ "từ", "câu" hoặc "hình ảnh" thành một vectơ đa chiều như vậy, để "ý nghĩa tương tự" của từ hoặc hình ảnh gần nhau hơn trong không gian. Quá trình ánh xạ này được gọi là "nhúng".
Ví dụ, chúng ta đào tạo một mô hình để ánh xạ "mèo" thành vectơ v₁ 300 chiều, "chó" thành vectơ v₂ khác và các từ "không liên quan" như "nền kinh tế" thành v₃. Sau đó, trong không gian 300 chiều này, khoảng cách giữa v₁ và v₂ sẽ nhỏ (vì cả hai đều là động vật và thường xuất hiện trong môi trường ngôn ngữ tương tự), trong khi khoảng cách giữa v₁ và v₃ sẽ lớn.
Khi mô hình được đào tạo trên một lượng lớn các cặp văn bản hoặc hình ảnh-văn bản, mỗi chiều mà nó học được không trực tiếp tương ứng với các thuộc tính có thể diễn giải như "kinh độ" và "vĩ độ", mà là một số loại "đặc điểm ngữ nghĩa ngầm". Một số chiều có thể nắm bắt được sự phân chia thô sơ của "động vật so với không phải động vật", một số có thể phân biệt giữa "thuần chủng so với hoang dã", và một số có thể tương ứng với cảm giác "dễ thương so với hùng mạnh"... Tóm lại, hàng trăm hoặc hàng nghìn chiều hoạt động cùng nhau để mã hóa tất cả các loại cấp độ ngữ nghĩa phức tạp và đan xen.

Sự khác biệt giữa chiều cao và chiều thấp là gì? Chỉ với đủ chiều, chúng ta mới có thể chứa nhiều đặc điểm ngữ nghĩa đan xen, và chỉ có chiều cao mới có thể khiến chúng có vị trí rõ ràng hơn trong các chiều ngữ nghĩa tương ứng của chúng. Khi ngữ nghĩa không thể phân biệt được, tức là khi ngữ nghĩa không thể được căn chỉnh, các tín hiệu khác nhau trong không gian chiều thấp sẽ "ép" lẫn nhau, khiến mô hình thường xuyên nhầm lẫn khi tìm kiếm hoặc phân loại và tỷ lệ chính xác giảm đáng kể; thứ hai, rất khó để nắm bắt những khác biệt tinh tế trong giai đoạn tạo chiến lược và dễ bỏ lỡ các tín hiệu giao dịch quan trọng hoặc đánh giá sai ngưỡng rủi ro, điều này trực tiếp kéo giảm hiệu suất lợi nhuận; thứ ba, sự hợp tác giữa các mô-đun trở nên không thể, mỗi tác nhân hoạt động độc lập và hiện tượng đảo thông tin trở nên nghiêm trọng, độ trễ phản hồi tổng thể tăng lên và tính mạnh mẽ giảm sút; cuối cùng, trước các kịch bản thị trường phức tạp, các cấu trúc chiều thấp hầu như không có khả năng mang dữ liệu đa nguồn và tính ổn định và khả năng mở rộng của hệ thống khó được đảm bảo. Hoạt động lâu dài chắc chắn sẽ gặp phải tình trạng tắc nghẽn hiệu suất và khó khăn trong bảo trì, dẫn đến hiệu suất sản phẩm không như mong đợi ban đầu sau khi hạ cánh.

Vậy Web3 AI hay giao thức Agent có thể đạt được không gian nhúng đa chiều không? Trước hết, không gian đa chiều đạt được như thế nào? Theo nghĩa truyền thống, "đa chiều" đòi hỏi mỗi hệ thống con - chẳng hạn như thông tin thị trường, tạo chiến lược, thực hiện và triển khai, và kiểm soát rủi ro - phải được sắp xếp và bổ sung cho nhau trong quá trình biểu diễn dữ liệu và ra quyết định. Tuy nhiên, hầu hết các Web3 Agent chỉ đơn giản là đóng gói các API hiện có (CoinGecko, giao diện DEX, v.v.) thành các "Agent" độc lập, thiếu không gian nhúng trung tâm thống nhất và cơ chế chú ý chéo mô-đun, dẫn đến thông tin không thể tương tác giữa các mô-đun từ nhiều góc độ và cấp độ. Nó chỉ có thể theo một đường ống tuyến tính, hiển thị một chức năng duy nhất và không thể hình thành tối ưu hóa vòng kín tổng thể.

Nhiều tác nhân gọi trực tiếp các giao diện bên ngoài và thậm chí không thực hiện đủ tinh chỉnh hoặc kỹ thuật tính năng trên dữ liệu được trả về bởi các giao diện. Ví dụ, tác nhân phân tích thị trường chỉ lấy giá và khối lượng, tác nhân thực hiện giao dịch chỉ đặt lệnh theo các tham số giao diện và tác nhân kiểm soát rủi ro chỉ báo động theo một số ngưỡng. Mỗi tác nhân thực hiện nhiệm vụ riêng của mình, nhưng thiếu sự hợp nhất đa phương thức và hiểu biết ngữ nghĩa sâu sắc về cùng một sự kiện rủi ro hoặc tín hiệu thị trường, dẫn đến hệ thống không thể nhanh chóng tạo ra các chiến lược toàn diện và đa góc độ khi đối mặt với các điều kiện thị trường khắc nghiệt hoặc các cơ hội liên tài sản.

Do đó, yêu cầu Web3 AI đạt được không gian đa chiều tương đương với yêu cầu giao thức Agent tự phát triển tất cả các giao diện API liên quan, điều này trái ngược với ý định ban đầu của nó là mô-đun hóa. Hệ thống đa phương thức mô-đun được các doanh nghiệp vừa và nhỏ mô tả trong Web3 AI không thể chịu được sự giám sát chặt chẽ. Kiến trúc đa chiều yêu cầu đào tạo thống nhất đầu cuối hoặc tối ưu hóa cộng tác: từ thu thập tín hiệu đến tính toán chiến lược, đến thực hiện và kiểm soát rủi ro, tất cả các liên kết đều chia sẻ cùng một tập hợp các biểu diễn và hàm mất mát. Ý tưởng "mô-đun dưới dạng plug-in" của Web3 Agent đã làm trầm trọng thêm tình trạng phân mảnh - mỗi lần nâng cấp, triển khai và điều chỉnh tham số của Agent đều được hoàn thành trong silo riêng của chúng, rất khó để lặp lại đồng bộ và không có cơ chế giám sát và phản hồi tập trung hiệu quả, dẫn đến chi phí bảo trì tăng đột biến và hiệu suất tổng thể bị hạn chế.

Để hiện thực hóa một tác nhân thông minh liên kết đầy đủ với các rào cản của ngành, cần phải đột phá kỹ thuật hệ thống của mô hình hóa liên kết đầu cuối, nhúng thống nhất trên các mô-đun và đào tạo và triển khai cộng tác. Tuy nhiên, không có điểm đau nào như vậy trong thị trường hiện tại và tất nhiên là không có nhu cầu thị trường.

Trong không gian có chiều thấp, các cơ chế chú ý không thể được thiết kế chính xác

Các mô hình đa phương thức cấp cao đòi hỏi các cơ chế chú ý tinh vi. Các cơ chế chú ý về cơ bản là một cách để phân bổ tài nguyên tính toán một cách động, cho phép mô hình "tập trung" một cách có chọn lọc vào các phần có liên quan nhất khi xử lý một phương thức đầu vào nhất định. Phổ biến nhất là các cơ chế tự chú ý và chú ý chéo trong Transformer: tự chú ý cho phép mô hình đo lường sự phụ thuộc giữa từng phần tử trong chuỗi, chẳng hạn như tầm quan trọng của từng từ trong văn bản đối với các từ khác; chú ý chéo cho phép thông tin từ một phương thức (chẳng hạn như văn bản) quyết định các đặc điểm hình ảnh nào để "xem" khi giải mã hoặc tạo ra một phương thức khác (chẳng hạn như chuỗi đặc điểm của hình ảnh). Thông qua sự chú ý đa đầu, mô hình có thể đồng thời học nhiều căn chỉnh trong các không gian con khác nhau để nắm bắt các liên kết phức tạp và chi tiết hơn.

Tiền đề để cơ chế chú ý hoạt động là tính đa phương thức có chiều cao. Trong không gian chiều cao, một cơ chế chú ý tinh vi có thể tìm thấy phần cốt lõi nhất từ không gian chiều cao đồ sộ trong thời gian ngắn nhất. Trước khi giải thích lý do tại sao cơ chế chú ý cần được đặt trong không gian chiều cao để hoạt động, trước tiên chúng ta hãy hiểu quy trình của Web2 AI được biểu diễn bởi bộ giải mã Transformer khi thiết kế cơ chế chú ý. Ý tưởng cốt lõi là khi xử lý các chuỗi (văn bản, bản vá hình ảnh, khung âm thanh), mô hình sẽ gán động "trọng số chú ý" cho từng phần tử, cho phép nó tập trung vào thông tin có liên quan nhất thay vì xử lý chúng một cách mù quáng như nhau.

Nói một cách đơn giản, nếu cơ chế chú ý được so sánh với một chiếc ô tô, thì việc thiết kế Query-Key-Value giống như thiết kế động cơ. QKV là một cơ chế giúp chúng ta xác định thông tin chính. Query đề cập đến truy vấn ("tôi đang tìm kiếm gì"), Key đề cập đến chỉ mục ("tôi có những thẻ nào") và Value đề cập đến nội dung ("nội dung nào ở đây"). Đối với các mô hình đa phương thức, nội dung bạn nhập vào mô hình có thể là một câu, một hình ảnh hoặc một đoạn âm thanh. Để lấy nội dung chúng ta cần trong không gian chiều, các đầu vào này sẽ được cắt thành các đơn vị nhỏ nhất, chẳng hạn như một ký tự, một khối nhỏ có kích thước pixel nhất định hoặc một khung âm thanh. Mô hình đa phương thức sẽ tạo Query, Key và Value cho các đơn vị nhỏ nhất này để thực hiện các phép tính chú ý. Khi mô hình xử lý một vị trí nhất định, nó sẽ sử dụng Query tại vị trí này để so sánh các Key của tất cả các vị trí để xác định thẻ nào phù hợp nhất với nhu cầu hiện tại. Sau đó, dựa trên mức độ phù hợp, Value được trích xuất từ vị trí tương ứng và được cân nhắc theo mức độ quan trọng. Cuối cùng, một biểu diễn mới chứa cả thông tin riêng của nó và nội dung có liên quan toàn cầu sẽ được thu được. Theo cách này, mỗi đầu ra có thể "đặt câu hỏi-truy xuất-tích hợp" một cách linh hoạt theo ngữ cảnh để đạt được mục tiêu thông tin hiệu quả và chính xác.

Trên cơ sở của công cụ này, nhiều bộ phận khác nhau được thêm vào để khéo léo kết hợp "tương tác toàn cầu" với "độ phức tạp có thể kiểm soát": chia tỷ lệ tích vô hướng để đảm bảo tính ổn định về mặt số, song song nhiều đầu để làm giàu biểu thức, mã hóa vị trí để giữ nguyên thứ tự chuỗi, các biến thể thưa thớt để cân bằng hiệu quả, phần dư và chuẩn hóa để giúp ổn định quá trình đào tạo và sự chú ý chéo để mở ra đa phương thức. Các thiết kế theo mô-đun và tiến bộ này cho phép Web2 AI có cả khả năng học tập mạnh mẽ và hoạt động hiệu quả trong phạm vi sức mạnh tính toán phải chăng khi xử lý nhiều tác vụ chuỗi và đa phương thức khác nhau.

Tại sao AI Web3 mô-đun không thể đạt được lịch trình chú ý thống nhất? Đầu tiên, cơ chế chú ý dựa trên không gian Truy vấn-Khóa-Giá trị thống nhất. Tất cả các tính năng đầu vào phải được ánh xạ vào cùng một không gian vectơ chiều cao để tính trọng số động thông qua các tích vô hướng. Các API độc lập trả về dữ liệu ở các định dạng và phân phối khác nhau - giá, trạng thái đơn hàng, cảnh báo ngưỡng - mà không có lớp nhúng thống nhất và không thể tạo thành một tập hợp Q/K/V tương tác. Thứ hai, sự chú ý nhiều đầu cho phép chú ý đến các nguồn thông tin khác nhau song song ở cùng một lớp và sau đó kết quả được tổng hợp; trong khi các API độc lập thường "gọi A trước, sau đó gọi B, sau đó gọi C" và đầu ra của mỗi bước chỉ là đầu vào của mô-đun tiếp theo. Nó thiếu khả năng trọng số động song song và đa chiều và tất nhiên không thể mô phỏng lịch trình chính xác của cơ chế chú ý chấm điểm tất cả các vị trí hoặc tất cả các phương thức cùng một lúc và sau đó tích hợp chúng. Cuối cùng, cơ chế chú ý thực sự sẽ chỉ định trọng số động cho từng phần tử dựa trên bối cảnh chung; ở chế độ API, các mô-đun chỉ có thể thấy ngữ cảnh "độc lập" khi chúng được gọi và không có ngữ cảnh trung tâm được chia sẻ theo thời gian thực giữa các mô-đun, do đó không thể đạt được sự liên kết và tập trung toàn cầu trên các mô-đun.

Do đó, không thể xây dựng khả năng "lên lịch chú ý thống nhất" như Transformer chỉ bằng cách đóng gói nhiều chức năng khác nhau vào các API rời rạc mà không có biểu diễn vectơ chung, trọng số song song và tổng hợp, giống như một chiếc ô tô có hiệu suất động cơ thấp không thể cải thiện giới hạn trên của nó bất kể được sửa đổi như thế nào.

Kết quả của việc ghép nối mô-đun rời rạc là sự hợp nhất tính năng vẫn ở mức ghép nối tĩnh bề ngoài.

"Hợp nhất tính năng" là kết hợp thêm các vectơ tính năng thu được sau khi xử lý các phương thức khác nhau dựa trên sự liên kết và sự chú ý, để chúng có thể được sử dụng trực tiếp bởi các tác vụ hạ nguồn (phân loại, truy xuất, tạo, v.v.). Các phương pháp hợp nhất có thể đơn giản như ghép nối và tổng hợp có trọng số hoặc phức tạp như gộp song tuyến tính, phân tích tenxơ và thậm chí là công nghệ định tuyến động. Một phương pháp bậc cao hơn là xen kẽ sự liên kết, sự chú ý và hợp nhất trong mạng nhiều lớp hoặc thiết lập đường dẫn truyền thông điệp linh hoạt hơn giữa các tính năng đa phương thức thông qua mạng nơ-ron đồ thị (GNN) để đạt được tương tác thông tin sâu.

Không cần phải nói, Web3 AI vẫn đang ở giai đoạn ghép nối đơn giản nhất, vì tiền đề của hợp nhất tính năng động là không gian đa chiều và cơ chế chú ý chính xác. Khi các điều kiện tiên quyết không được đáp ứng, hợp nhất tính năng ở giai đoạn cuối sẽ không thể đạt được hiệu suất tuyệt vời.

Web2 AI có xu hướng áp dụng đào tạo chung đầu cuối: nó xử lý tất cả các tính năng mô hình như hình ảnh, văn bản và âm thanh đồng thời trong cùng một không gian đa chiều và tối ưu hóa hợp tác với lớp tác vụ hạ lưu thông qua lớp chú ý và lớp hợp nhất. Mô hình tự động học các trọng số hợp nhất tối ưu và các phương pháp tương tác trong quá trình truyền ngược và truyền tiến. Mặt khác, Web3 AI áp dụng phương pháp ghép nối mô-đun rời rạc hơn, đóng gói nhiều API khác nhau như nhận dạng hình ảnh, thu thập thông tin thị trường và đánh giá rủi ro thành các tác nhân độc lập, sau đó chỉ cần ghép các nhãn, giá trị hoặc ngưỡng cảnh báo do từng tác nhân tạo ra. Các quyết định toàn diện được đưa ra bởi logic dòng chính hoặc lao động thủ công. Phương pháp này thiếu mục tiêu đào tạo thống nhất và luồng gradient giữa các mô-đun.

Trong Web2 AI, hệ thống dựa vào cơ chế chú ý để tính toán điểm quan trọng của nhiều tính năng khác nhau theo thời gian thực theo ngữ cảnh và điều chỉnh động chiến lược hợp nhất; sự chú ý của nhiều đầu cũng có thể nắm bắt nhiều chế độ tương tác tính năng khác nhau song song ở cùng một cấp độ, do đó tính đến các chi tiết cục bộ và ngữ nghĩa toàn cục. Web3 AI thường cố định các trọng số như "hình ảnh × 0,5 + văn bản × 0,3 + giá × 0,2" trước hoặc sử dụng các quy tắc if/else đơn giản để xác định có nên hợp nhất hay không hợp nhất, chỉ trình bày đầu ra của từng mô-đun với nhau, điều này thiếu tính linh hoạt.

Web2 AI ánh xạ tất cả các tính năng modal thành không gian đa chiều với hàng nghìn chiều. Quá trình hợp nhất không chỉ là nối vector mà còn bao gồm nhiều hoạt động tương tác bậc cao như phép cộng và phép gộp song tuyến tính. Mỗi chiều có thể tương ứng với một ngữ nghĩa tiềm năng nhất định, cho phép mô hình nắm bắt các liên kết đa phương thức sâu sắc và phức tạp. Ngược lại, đầu ra của mỗi tác nhân của Web3 AI thường chỉ chứa một vài trường hoặc chỉ số chính, với các chiều tính năng cực kỳ thấp và hầu như không thể diễn đạt thông tin tinh tế như "tại sao nội dung hình ảnh khớp với ý nghĩa của văn bản" hoặc "mối liên hệ tinh tế giữa biến động giá và xu hướng cảm xúc".

Trong Web2 AI, việc mất các tác vụ hạ lưu liên tục được truyền trở lại các phần khác nhau của mô hình thông qua lớp chú ý và lớp hợp nhất, tự động điều chỉnh các tính năng nào cần được tăng cường hoặc loại bỏ, tạo thành một quá trình tối ưu hóa vòng kín. Ngược lại, Web3 AI dựa vào các quy trình thủ công hoặc bên ngoài để đánh giá và điều chỉnh các tham số sau khi báo cáo kết quả gọi API. Việc thiếu phản hồi tự động từ đầu đến cuối khiến việc lặp lại và tối ưu hóa các chiến lược hợp nhất trực tuyến trở nên khó khăn.

Rào cản đối với ngành AI ngày càng sâu sắc, nhưng điểm đau vẫn chưa xuất hiện

Vì cần phải tính đến sự liên kết chéo phương thức, tính toán sự chú ý chính xác và sự hợp nhất tính năng đa chiều trong quá trình đào tạo đầu cuối, nên hệ thống đa phương thức của Web2 AI thường là một dự án kỹ thuật cực kỳ lớn. Nó không chỉ đòi hỏi các tập dữ liệu chéo phương thức khổng lồ, đa dạng và được chú thích chính xác mà còn đòi hỏi hàng nghìn GPU trong nhiều tuần hoặc thậm chí nhiều tháng thời gian đào tạo; về mặt kiến trúc mô hình, nó tích hợp nhiều khái niệm thiết kế mạng và công nghệ tối ưu hóa mới nhất; về mặt triển khai kỹ thuật, cũng cần phải xây dựng một nền tảng đào tạo phân tán có thể mở rộng, hệ thống giám sát, quản lý phiên bản mô hình và đường ống triển khai; trong quá trình phát triển thuật toán, cần phải tiếp tục nghiên cứu các biến thể chú ý hiệu quả hơn, tổn thất liên kết mạnh mẽ hơn và các chiến lược hợp nhất nhẹ hơn. Công việc có hệ thống liên kết đầy đủ, toàn bộ như vậy có yêu cầu cực kỳ cao về tiền, dữ liệu, sức mạnh tính toán, nhân tài và thậm chí là sự hợp tác của tổ chức, vì vậy nó tạo thành một rào cản rất lớn trong ngành và cũng tạo ra khả năng cạnh tranh cốt lõi mà một số nhóm hàng đầu đã thành thạo cho đến nay.

Vào tháng 4, khi tôi xem xét các ứng dụng AI của Trung Quốc và so sánh chúng với WEB3 ai, tôi đã đề cập đến một điểm: Crypto có tiềm năng đạt được đột phá trong các ngành có rào cản lớn. Điều này có nghĩa là một số ngành đã rất trưởng thành trên thị trường truyền thống, nhưng có những điểm khó khăn lớn. Độ trưởng thành cao có nghĩa là có đủ người dùng quen thuộc với các mô hình kinh doanh tương tự và những điểm khó khăn lớn có nghĩa là người dùng sẵn sàng thử các giải pháp mới, nghĩa là họ có ý muốn mạnh mẽ chấp nhận Crypto. Cả hai đều không thể thiếu. Nói cách khác, nếu đó không phải là một ngành đã rất trưởng thành trên thị trường truyền thống nhưng có những điểm khó khăn lớn, Crypto không thể bén rễ trong đó và sẽ không có không gian sống. Người dùng rất miễn cưỡng khi hiểu đầy đủ về nó và không hiểu giới hạn trên tiềm năng của nó.

WEB3 AI hoặc bất kỳ sản phẩm Crypto nào dưới biểu ngữ PMF cần phát triển với chiến thuật bao vây thành phố từ vùng nông thôn. Nó nên thử nghiệm vùng nước ở quy mô nhỏ ở các vị trí biên để đảm bảo nền tảng vững chắc trước khi chờ đợi sự xuất hiện của kịch bản cốt lõi, tức là thành phố mục tiêu. Cốt lõi của Web3 AI nằm ở sự phi tập trung và con đường phát triển của nó được phản ánh trong tính song song cao, khả năng ghép nối thấp và khả năng tương thích của sức mạnh tính toán không đồng nhất. ** Điều này làm cho Web3 AI có lợi thế hơn trong các tình huống như điện toán biên và phù hợp với các cấu trúc nhẹ, dễ song song hóa và các tác vụ có thể khuyến khích, chẳng hạn như tinh chỉnh LoRA, các tác vụ sau đào tạo căn chỉnh hành vi, đào tạo và chú thích dữ liệu cộng đồng, đào tạo mô hình cơ bản nhỏ và đào tạo cộng tác thiết bị biên. Kiến trúc sản phẩm của các tình huống này rất nhẹ và lộ trình có thể được lặp lại một cách linh hoạt. Nhưng điều này không có nghĩa là cơ hội đã đến, vì các rào cản của WEB2 AI mới chỉ bắt đầu hình thành. Sự xuất hiện của Deepseek đã thúc đẩy sự tiến bộ của AI nhiệm vụ phức tạp đa phương thức. Đây là cuộc cạnh tranh của các doanh nghiệp hàng đầu và giai đoạn đầu xuất hiện của cổ tức WEB2 AI. Tôi nghĩ chỉ khi cổ tức của WEB2 AI biến mất, các điểm đau để lại mới là cơ hội để WEB3 AI chen chân vào, giống như sự ra đời của DeFi. Trước khi thời điểm đó đến, các điểm đau do WEB3 AI tự tạo sẽ tiếp tục xâm nhập thị trường. Chúng ta cần xác định cẩn thận các giao thức có "bao quanh thành phố từ nông thôn" và có nên chen chân vào từ rìa hay không, trước tiên là giành được chỗ đứng ở nông thôn (hoặc thị trường nhỏ, bối cảnh nhỏ) với thế mạnh yếu và ít kịch bản bám rễ thị trường, và dần dần tích lũy nguồn lực và kinh nghiệm; có nên kết hợp các điểm và bề mặt và thúc đẩy theo cách tuần hoàn hay không, và có thể liên tục lặp lại và cập nhật sản phẩm trong một kịch bản ứng dụng đủ nhỏ hay không. Nếu không thể làm được điều này, thì khó có thể đạt được giá trị thị trường 1 tỷ đô la Mỹ bằng cách dựa vào PMF trên cơ sở này và các dự án như vậy sẽ không nằm trong danh sách quan tâm; liệu nó có thể chiến đấu trong một cuộc chiến tranh kéo dài và linh hoạt và cơ động, WEB2 AI Các rào cản tiềm ẩn đang thay đổi năng động và các điểm đau tiềm ẩn tương ứng cũng đang phát triển. Chúng ta cần chú ý xem liệu giao thức WEB3 AI có cần đủ linh hoạt để thích ứng với các kịch bản khác nhau, di chuyển nhanh giữa các vùng nông thôn và di chuyển gần hơn đến thành phố mục tiêu với tốc độ nhanh nhất hay không. Nếu bản thân giao thức quá chuyên sâu về cơ sở hạ tầng và kiến trúc mạng quá lớn, thì rất có thể nó sẽ bị loại bỏ.

Giới thiệu về Movemaker

Movemaker là tổ chức cộng đồng chính thức đầu tiên được Aptos Foundation ủy quyền và được Ankaa và BlockBooster cùng khởi xướng, tập trung vào việc thúc đẩy xây dựng và phát triển hệ sinh thái Aptos Trung Quốc. Là đại diện chính thức của Aptos tại khu vực Trung Quốc, Movemaker cam kết xây dựng một hệ sinh thái Aptos đa dạng, cởi mở và thịnh vượng bằng cách kết nối các nhà phát triển, người dùng, vốn và nhiều đối tác sinh thái.

Tuyên bố miễn trừ trách nhiệm:

Bài viết/blog này chỉ nhằm mục đích cung cấp thông tin và thể hiện quan điểm cá nhân của tác giả và không nhất thiết thể hiện quan điểm của Movemaker. Bài viết này không nhằm mục đích cung cấp: (i) lời khuyên đầu tư hoặc khuyến nghị đầu tư; (ii) lời đề nghị hoặc chào mời mua, bán hoặc nắm giữ tài sản kỹ thuật số; hoặc (iii) tư vấn tài chính, kế toán, pháp lý hoặc thuế. Việc nắm giữ tài sản kỹ thuật số, bao gồm cả stablecoin và NFT, là cực kỳ rủi ro và có thể dao động về giá và trở nên vô giá trị. Bạn nên cân nhắc cẩn thận xem việc giao dịch hoặc nắm giữ tài sản kỹ thuật số có phù hợp với mình hay không dựa trên tình hình tài chính của bạn. Nếu bạn có thắc mắc về tình hình cụ thể của mình, vui lòng tham khảo cố vấn pháp lý, thuế hoặc đầu tư của bạn. Thông tin được cung cấp trong bài viết này (bao gồm dữ liệu thị trường và thông tin thống kê, nếu có) chỉ mang tính chất thông tin chung. Chúng tôi đã hết sức cẩn thận trong quá trình chuẩn bị dữ liệu và biểu đồ này, nhưng chúng tôi không chịu trách nhiệm về bất kỳ lỗi hoặc thiếu sót thực tế nào được nêu trong đó.

đầu tư

ngành công nghiệp

Aptos

công nghệ

Chào mừng tham gia cộng đồng chính thức của Odaily