Nghiên cứu về Cơ sở hạ tầng Kinh tế AI Agent (Phần 2)

特邀专栏作者

2026-03-24 07:58

Bài viết này có khoảng 10188 từ, đọc toàn bộ bài viết mất khoảng 15 phút

Chúng ta đang ở trong một giai đoạn cửa sổ hiếm có: cơ sở hạ tầng đã sẵn sàng, nhưng ứng dụng đột phá vẫn chưa xuất hiện.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Bài viết này phân tích sâu sắc dự án OpenClaw và làn sóng kinh tế AI Agent mà nó khởi xướng, chỉ ra giá trị độc đáo của cơ sở hạ tầng Crypto (như giao thức thanh toán x402, giao thức danh tính ERC-8004) trong việc giải quyết các tình huống hợp tác xuyên nền tảng, không cần tin cậy. Tuy nhiên, việc áp dụng quy mô lớn của chúng phụ thuộc vào việc hoạt động kinh tế giữa các Agent có phát triển từ công cụ cá nhân thành mạng lưới hợp tác đa Agent hay không.
Yếu tố then chốt:
1. Sự bùng nổ và ý nghĩa của OpenClaw: Dự án này đã trở thành phần mềm có số lượng Star lịch sử trên GitHub nhiều nhất trong vòng bốn tháng. Cốt lõi của nó là cho phép AI Agent chủ động làm việc trên các nền tảng hiện có của người dùng, cung cấp một kịch bản thực tế quy mô lớn để quan sát sự tương tác giữa Agent và các cơ sở kinh tế trên chuỗi.
2. Bốn thách thức trong kiến trúc kỹ thuật: Kiến trúc OpenClaw tiết lộ các vấn đề cốt lõi như nhận dạng, kiểm soát an ninh, tính không xác định trong thực thi và tính bền vững của bộ nhớ. Các ràng buộc an ninh của nó phụ thuộc vào ngôn ngữ tự nhiên, có nguy cơ bị nén hoặc tấn công tiêm nhiễm.
3. Nút thắt cấu trúc của nền kinh tế Agent: Vấn đề cốt lõi là "ngữ cảnh không lưu chuyển", dẫn đến kiến thức, sự tin cậy và giá trị của Agent bị khóa trong môi trường máy đơn, thiếu cơ chế phát hiện, định giá và hợp tác có thể xác minh được xuyên tổ chức.
4. Kịch bản không thể thay thế của Crypto: Khi cần tương tác và hoạt động kinh tế giữa các Agent xuyên tổ chức, xuyên nền tảng mà không có mối quan hệ tin cậy trước, thì hệ thống danh tính, thanh toán và uy tín trên chuỗi phù hợp hơn bất kỳ giải pháp tập trung nào.
5. Mối đe dọa an ninh và giải pháp trên chuỗi: Quyền hạn rộng rãi của Agent mang lại mặt tấn công lớn. Cơ sở hạ tầng trên chuỗi (như nhật ký có thể kiểm toán, quyền có thể lập trình, hệ thống uy tín) có thể giảm thiểu hậu quả, cung cấp cơ chế an ninh cấu trúc, nhưng cần kết hợp với lớp an ninh thời gian chạy.
6. Cạnh tranh và lộ trình áp dụng: Cuộc cạnh tranh thực sự là giữa giải pháp Crypto và giải pháp Web2 (như thẻ ảo Stripe). Giải pháp Crypto cần vượt trội về trải nghiệm nhà phát triển so với đối thủ. Việc áp dụng quy mô lớn của nó có thể đến trong 3-5 năm tới khi các điểm đau của giải pháp truyền thống bùng phát.
7. Sự thay đổi mô hình kinh doanh: "Product-Agent Fit" sẽ thay thế "Product-Market Fit". Mô hình kinh doanh có thể chuyển sang các giao dịch vi mô "trả tiền theo lượt thu thập", trong đó sự ổn định của API và hồ sơ có thể xác minh trên chuỗi sẽ trở thành hào rào bảo vệ mới.

Bài viết này là báo cáo nghiên cứu chuyên sâu do OKX Ventures thực hiện. Do độ dài lớn, sẽ được chia thành hai phần: Phần đầu tập trung vào bối cảnh vĩ mô, giao thức x402, ERC-8004 và Virtuals Protocol, nhấn vào đây để chuyển tiếp; Phần sau sẽ tập trung phân tích OpenClaw và xu hướng tổng thể ngành.

Chương 5 OpenClaw: Nghiên cứu chuyên sâu về hệ sinh thái ứng dụng

5.1 Bối cảnh dự án và sự bùng nổ

Vào tháng 11 năm 2025, nhà phát triển người Áo Peter Steinberger đã đăng một dự án cuối tuần lên GitHub. Bốn tháng sau, vào tháng 3 năm 2026, dự án này đã vượt qua React để trở thành dự án phần mềm có nhiều Stars nhất trong lịch sử GitHub – hơn 250,000 Stars, trong khi React mất 13 năm để đạt được con số tương tự.

Trong xu hướng lớn khi các sản phẩm AI tiến hóa từ công cụ thụ động sang Agent chủ động, thay đổi mà OpenClaw thực hiện là: AI không còn chờ người dùng tìm đến nó, mà chủ động giúp người dùng thực hiện công việc trên các nền tảng sẵn có của họ. Nó "sống" trên máy tính của người dùng, đồng thời kết nối với hơn 20 kênh như WhatsApp, Telegram, Slack, Discord, Signal, iMessage, Lark, và thông qua giao thức MCP để vận hành email, lịch, trình duyệt, hệ thống tệp, trình chỉnh sửa mã. Andrej Karpathy đã tạo ra một thuật ngữ cho loại hệ thống này: Claws; các AI Agent chạy vòng lặp ở chế độ nền, có khả năng ra quyết định và thực thi nhiệm vụ độc lập tại chỗ. Thuật ngữ này nhanh chóng trở thành cách gọi chung cho AI Agent được lưu trữ cục bộ tại Thung lũng Silicon.

Mỗi lần mô hình chính phát hành đều coi khả năng Agent là trang nhất, bởi vì Agent là hệ số nhân nhu cầu chứng minh tính hợp lý của đầu tư vào cơ sở hạ tầng AI: một truy vấn trò chuyện tiêu thụ vài trăm token, một lần chạy Agent với lệnh gọi công cụ và suy luận nhiều bước tiêu thụ từ vài chục nghìn đến vài trăm nghìn token.

Mặc dù người sáng lập cấm thảo luận về tiền mã hóa trên Discord. Nhưng cộng đồng Crypto đã tự phát xây dựng trên OpenClaw một cơ sở hạ tầng kinh tế chuỗi hoàn chỉnh: phát hành token, đăng ký danh tính, giao thức thanh toán, mạng xã hội, hệ thống danh tiếng, v.v. Sự bùng nổ của OpenClaw lần đầu tiên cho phép chúng ta quan sát cách thức tương tác giữa Agent và cơ sở hạ tầng chuỗi trong một kịch bản thực tế, quy mô lớn và cung cấp cho cộng đồng Crypto một vật chủ có cơ sở người dùng thực tế để gắn kết hoạt động kinh tế.

5.2 Phân tích kiến trúc kỹ thuật

Tầng 1: Kênh tin nhắn – Vấn đề danh tính

OpenClaw đồng thời kết nối với hơn 20+ nền tảng, từ góc độ bên trong Agent, nó biết mình là một, có bộ nhớ thống nhất, cấu hình thống nhất, SOUL.md thống nhất. Nhưng từ góc độ bên ngoài, làm sao người khác biết Agent này trên Telegram và Agent kia trên Discord là cùng một? Mỗi nền tảng có hệ thống ID người dùng riêng, các nền tảng không liên thông với nhau và không thể xem hồ sơ hành vi. Đây chính là vấn đề cốt lõi mà ERC-8004 đang cố gắng giải quyết.

Tầng 2: Cổng kết nối (Gateway) – Vấn đề an ninh

Gateway là trung tâm điều phối não bộ của OpenClaw: định tuyến tin nhắn người dùng đến đúng Agent, tải lịch sử phiên và các Skills khả dụng của Agent đó, thiết lập ranh giới quyền hạn trước khi Agent bắt đầu suy nghĩ (cơ chế danh sách trắng: khi một tin nhắn đến Gateway, hệ thống dựa trên thông tin như kênh nguồn tin nhắn, ID người dùng, ID nhóm, v.v., tạo động một danh sách trắng công cụ. Chỉ những công cụ trong danh sách trắng mới được đưa vào ngữ cảnh của Agent. Agent hoàn toàn không nhìn thấy các công cụ ngoài danh sách trắng, vì vậy cũng không thể gọi chúng).

Ưu điểm của thiết kế này là đặt an ninh lên hàng đầu. Nhưng việc kiểm soát quyền của nó hoàn toàn phụ thuộc vào điểm đơn Gateway, nếu bị tấn công hoặc cấu hình sai, Agent có thể nhận được quyền không nên có.

Tầng 3: Lõi Agent (Vòng lặp ReAct) – Vấn đề dự đoán được

Logic vận hành của Agent là vòng lặp ReAct (Lý luận + Hành động): nhận đầu vào → suy nghĩ (gọi LLM) → quyết định hành động → gọi công cụ → nhận kết quả → suy nghĩ lại → lặp. Các tối ưu hóa kỹ thuật mà OpenClaw thực hiện bao gồm: lập lịch tin nhắn tần suất cao (4 chiến lược Steer/Collect/Followup/Interrupt), dung sai hai lớp LLM (luân phiên xác thực + giảm cấp mô hình) và cơ chế phân cấp suy nghĩ tùy chọn (6 cấp độ).

Nhưng LLM có bản chất xác suất, đầu ra là không xác định. Agent là người thực thi không xác định, thực hiện hành động không thể đảo ngược trong môi trường không xác định.

Đầu tiên là mất ràng buộc do nén ngữ cảnh: bản thân ràng buộc an ninh cũng là một phần của ngữ cảnh, khi ngữ cảnh bị nén có tổn hao, ràng buộc an ninh có thể bị loại bỏ. Thứ hai là prompt injection: ai đó cố ý nhúng lệnh ẩn vào nội dung mà Agent sẽ xử lý, khiến Agent coi nội dung đó như lệnh của người dùng để thực thi. Nguồn gốc chung của cả hai là: ranh giới hành vi của Agent được định nghĩa bằng ngôn ngữ tự nhiên, mà ngôn ngữ tự nhiên thì mơ hồ, có thể bị thao túng, có thể bị nén có tổn hao.

Một ví dụ là Summer Yu, Trưởng phòng Đối chuẩn Phòng thí nghiệm Siêu trí tuệ Meta, yêu cầu Agent "đề xuất một số email có thể xóa", nhưng Agent trực tiếp xóa hàng trăm email (sau khi cửa sổ ngữ cảnh tràn, kích hoạt nén, ràng buộc then chốt "đề xuất" bị mất).

Trong trường hợp này, chúng ta cần không phải là prompt engineering tốt hơn mà là cơ chế an ninh có cấu trúc: nhật ký hoạt động có thể kiểm tra, ranh giới quyền hạn có thể lập trình, và hệ thống kinh tế có thể truy cứu trách nhiệm và bồi thường khi xảy ra lỗi. Những thứ này lại chính là thế mạnh của hợp đồng thông minh và cơ sở hạ tầng chuỗi.

Tầng 4: Hệ thống bộ nhớ – Vấn đề tính bền vững và khả năng di chuyển

OpenClaw triển khai hai loại bộ nhớ: bộ nhớ làm việc hàng ngày (tệp YYYY-MM-DD.md) và bộ nhớ tinh túy dài hạn (MEMORY.md, sở thích then chốt được loại bỏ trùng lặp, phân loại và tinh luyện). Khi truy xuất sử dụng chế độ hỗn hợp truy xuất vector + BM25.

Phiên mặc định được đặt lại vào 4 giờ sáng mỗi ngày. Cửa sổ ngữ cảnh liên tục bị nén và tóm tắt. Khi ngữ cảnh tiệm cận giới hạn token, cách làm của OpenClaw là kích hoạt nén phiên, sử dụng LLM để tóm tắt cuộc đối thoại trước đó thành phiên bản ngắn hơn. Trước khi nén, thực hiện một lần Memory Flush, cho Agent một cơ hội để ghi thông tin then chốt vào bộ nhớ bền vững. Về bản chất, điều này là đánh cược rằng Agent tự biết thông tin nào là then chốt. Một hệ thống không xác định để đánh giá thông tin nào là then chốt, bản thân điều đó đã là không xác định.

Tất cả bộ nhớ của OpenClaw tồn tại trong hệ thống tệp cục bộ, đổi máy tính là mất; khi hợp tác với Agent khác không có cơ chế bộ nhớ chia sẻ; kiến thức và kinh nghiệm của Agent bị khóa chết trên máy tính đang chạy nó. Sự hợp tác Sub-Agent chỉ giới hạn trong cùng một phiên bản OpenClaw, một khi liên quan đến hợp tác Agent xuyên phiên bản, xuyên tổ chức, hệ thống bất lực. Phản hồi từ nhà phát triển trên GitHub: hồ sơ quyết định nằm trong lịch sử trò chuyện nhưng không có artifact bền vững, bàn giao mơ hồ, truyền tải kiến thức không đầy đủ.

5.3 Vấn đề cấu trúc kinh tế Agent

Ngữ cảnh không lưu động: Nguồn gốc của mọi vấn đề

Khóa không gian: Bộ nhớ và kiến thức của Agent tồn tại trên máy tính đang chạy nó, đổi máy tính là mất
Cách ly tin cậy: Agent A tuyên bố "người dùng tuần trước nói sở thích X", Agent B không có cách nào xác minh đúng sai
Không thể phát hiện: Muốn tìm một Agent "giỏi phân tích DeFi"? Không có cơ chế phát hiện tiêu chuẩn hóa
Giá trị chưa được định giá: Kiến thức lĩnh vực và sở thích người dùng mà Agent tích lũy rõ ràng có giá trị kinh tế, nhưng hiện không có cách định giá hoặc giao dịch
Mặc định tạm thời: Ngữ cảnh bất cứ lúc nào cũng có thể bị nén, tóm tắt, hoặc mất khi phiên được đặt lại

Để ngữ cảnh thực sự lưu thông, nó cần đồng thời có năm thuộc tính: có thể vượt qua ranh giới tin cậy, có thuộc tính kinh tế, có thể được phát hiện mà không cần gatekeeper, lưu lại dấu vết quyết định, phù hợp với nhu cầu người tiêu dùng. Hiện tại không có giao thức đơn lẻ nào có thể đồng thời cung cấp năm thuộc tính này. MCP giải quyết "mô hình AI gọi công cụ như thế nào". A2A giải quyết "Agent giao tiếp với Agent như thế nào". x402 giải quyết "Agent thanh toán như thế nào". Nhưng "Agent làm thế nào để tự chủ phát hiện, đánh giá và sử dụng dữ liệu ngữ cảnh trong môi trường không đáng tin" vẫn chưa có câu trả lời.

Nghịch lý phối hợp

Agent chỉ cần đủ ngữ cảnh là có thể suy luận. Nhưng phối hợp xuyên tổ chức cần tất cả ngữ cảnh lịch sử.

Một Agent đang nghĩ "có nên đặt chuyến bay này không", thông tin tinh gọn của phiên hiện tại là đủ. Nhưng khi nó cần phối hợp với Agent chuỗi cung ứng, Agent tài chính, Agent lịch (có thể trên các nền tảng khác nhau, vận hành bởi các tổ chức khác nhau): chúng chia sẻ ngữ cảnh nào? Xác minh như thế nào? Quyền sở hữu thuộc về ai?

Gartner dự đoán đến năm 2027, hơn 40% dự án AI Agentic sẽ bị hủy do chi phí leo thang liên tục, giá trị thương mại không rõ ràng hoặc kiểm soát rủi ro không đủ. Nhưng 70% nhà phát triển phản ánh, vấn đề cốt lõi là tồn tại vấn đề tích hợp với hệ thống hiện có. Nguyên nhân gốc rễ là, Agent là người thực thi không xác định, doanh nghiệp cần kết quả xác định. Một người thực thi không xác định trong môi trường không xác định hợp tác với đối tác không xác định, không có lớp tin cậy có thể xác minh, sự kết hợp này không thể tạo ra đầu ra đáng tin cậy.

Hiện tại nhu cầu hợp tác Agent xuyên nền tảng còn rất nhỏ. Người dùng chỉ muốn một AI có thể giúp họ làm việc, không quan tâm nó có thể hợp tác với Agent khác hay không. Nghịch lý phối hợp là một vấn đề kỹ thuật thực tế, nhưng liệu nó có phát triển thành một vấn đề thương mại quy mô lớn hay không, phụ thuộc vào cách sử dụng Agent có tiến hóa từ công cụ cá nhân sang mạng lưới hợp tác đa Agent hay không.

Kết hợp các phân tích trên, chúng ta có được một khái niệm kiến trúc:

Tầng dưới là nơi Agent thực hiện suy luận: ngắn hạn,

Sự an toàn

công nghệ

MCP

Chào mừng tham gia cộng đồng chính thức của Odaily