Khi ví bắt đầu tích hợp AI Agent: Mô hình tương tác mới của ERC-8211, tại sao đáng chú ý?

特邀专栏作者

2026-04-20 10:08

Bài viết này có khoảng 4213 từ, đọc toàn bộ bài viết mất khoảng 7 phút

Bản thân nó không phải là tiêu chuẩn AI, nhưng rất có thể sẽ trở thành một lớp cơ sở hạ tầng thực thi quan trọng trong thời đại "AI + ví".

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Tiêu chuẩn ERC-8211 nhằm giải quyết nút thắt chính khi AI Agent thực hiện các thao tác phức tạp trên chuỗi (như chiến lược DeFi nhiều bước), đó là mô hình "xử lý hàng loạt tĩnh" hiện tại không thể thích ứng với sự thay đổi trạng thái động trên chuỗi, thông qua việc giới thiệu mô hình "chương trình đánh giá động", cung cấp cho đại lý AI một lớp thực thi trên chuỗi nguyên bản và an toàn.
Yếu tố then chốt:
1. Vấn đề cốt lõi: Các tiêu chuẩn hiện có (như ERC-4337) cho phép đóng gói nhiều lệnh gọi trong một lần ký, nhưng các tham số bị "đóng băng" tại thời điểm ký, không thể điều chỉnh động theo trạng thái thời gian thực trên chuỗi (như trượt giá, thanh khoản) khi thực thi, dẫn đến các quy trình phức tạp dễ bị hỏng và thất bại.
2. Giải pháp: ERC-8211 nâng cấp xử lý hàng loạt từ "chuỗi giao dịch tĩnh" thành "chương trình đánh giá động", thông qua ba nguyên thủy Fetchers (lấy giá trị thời gian thực), Constraints (ràng buộc điều kiện), Predicates (điều kiện kích hoạt), đảm bảo đầu vào của mỗi bước dựa trên đầu ra thực tế của bước trước và thỏa mãn các điều kiện đặt trước.
3. Đảm bảo thực thi: Cơ chế này thực hiện thực thi nguyên tử, bất kỳ bước nào không đạt kỳ vọng (như số tiền trao đổi không đủ, trượt giá vượt tiêu chuẩn) sẽ khiến toàn bộ lô được hoàn nguyên, tránh rủi ro vốn nhàn rỗi hoặc giao dịch dở dang còn sót lại.
4. Tác động đến ví: Vai trò của ví sẽ phát triển từ "bộ ký an toàn" thành "trình thông dịch chương trình ý định", cần hiển thị rõ ràng cho người dùng toàn bộ chương trình thực thi bao gồm logic lấy giá trị và phán đoán điều kiện, thay vì chi tiết từng giao dịch đơn lẻ.
5. Vị trí trong hệ sinh thái: ERC-8211 tương thích với các tiêu chuẩn trừu tượng tài khoản như ERC-4337, là lớp "ngữ nghĩa thực thi lập trình" mới được thêm vào trên đó, cùng thúc đẩy tương tác trên chuỗi tiến hóa theo hướng mô hình biểu đạt "ý định" cao cấp hơn.

Bắt đầu từ năm 2025, nhiều người có lẽ đã dần quen với một cách tương tác mới: nói với GPT hoặc Gemini một câu "Hãy giúp tôi lên kế hoạch cho chuyến đi đến Hồng Kông vào tuần tới và đề xuất vé máy bay, khách sạn phù hợp", nó sẽ âm thầm hoàn thành một loạt các bước như tìm kiếm thông tin, lọc điều kiện, lựa chọn lộ trình, so sánh giá cả ở hậu trường, cuối cùng chỉ đưa kết quả cho bạn xác nhận.

Tuy nhiên, khi mang cùng kỳ vọng đó lên blockchain, câu chuyện lại hoàn toàn thay đổi.

Ví dụ, bạn ra lệnh cho một DeFi Agent: "Hãy đổi ETH trong ví lấy USDC, chuyển sang Base chain, sau đó gửi toàn bộ vào Aave". Khách quan mà nói, xét về "hiểu nhu cầu" và "lập kế hoạch đường đi", Agent ngày nay không nhất thiết là không làm được, sự đứt gãy thực sự xuất hiện ở khâu thực thi:

Bạn vẫn rất có thể sẽ phải hoàn thành từng bước các thao tác như ký, ủy quyền, hoán đổi, cross-chain và gửi tiền, và mỗi bước đều phơi bày trước rủi ro về biến động trượt giá, dao động Gas, độ trễ cầu nối và thay đổi trạng thái trên chuỗi. Điều này cũng có nghĩa là chỉ cần một khâu nào đó trong quá trình lệch khỏi dự kiến, các hành động trước đó chưa chắc đã có thể thu hồi, trong khi các hành động sau có thể không tiếp nối được, cuối cùng những gì còn lại trên chuỗi thường chỉ là một quy trình dang dở chưa hoàn thành.

Vấn đề không nằm ở chỗ AI không đủ thông minh, mà ở chỗ tầng thực thi trên chuỗi cho đến nay vẫn thiếu một cách thức biểu đạt thực sự phù hợp với Agent.

Cũng chính vì vậy, vào đầu tháng 4 năm 2026, ERC-8211 do Biconomy và Ethereum Foundation cùng công bố nhằm giải quyết vấn đề "hạn chế tĩnh" trong việc thực thi hợp đồng thông minh hiện tại, cung cấp một tầng thực thi biểu cảm hơn cho AI agent và các quy trình làm việc DeFi phức tạp, cố gắng lắp ráp mảnh ghép còn thiếu này.

1. "Khoảng trống cuối cùng" để AI Agent kết nối với chuỗi

Trong một đến hai năm qua, trọng tâm chú ý của ngành công nghiệp tiền mã hóa đang chuyển rõ rệt từ mở rộng quy mô L2, thanh khoản RWA sang chủ đề mang tính đột phá về cách AI Agent thực sự tiếp quản các thao tác trên chuỗi.

Khách quan mà nói, từ "ra lệnh bằng ngôn ngữ tự nhiên cho các chiến lược DeFi nhiều bước" đến "để agent tự chủ quản lý toàn bộ danh mục đầu tư cross-chain", gần đây chúng ta cũng đã thấy nhiều thực tiễn, và hầu hết các ý tưởng đã trưởng thành ở cấp độ demo, cho dù là tạo chiến lược DeFi nhiều bước bằng ngôn ngữ tự nhiên, tái cân bằng tự chủ thực thi, di chuyển lợi nhuận tự động, điều chỉnh vị thế cross-chain, hay thậm chí là quản lý danh mục kết hợp phức tạp hơn.

Xét từ góc độ suy luận và sắp xếp, khả năng của AI đã chạy khá nhanh, chỉ có điều khi thực sự đưa nó vào môi trường sản xuất, điểm yếu của tầng thực thi ngày càng trở nên rõ ràng.

Nếu thực sự áp dụng vào môi trường sản xuất, điểm yếu này có thể được tóm gọn trong một câu: DeFi là động, nhưng hầu hết các batch (xử lý hàng loạt) ngày nay vẫn là tĩnh.

Trang web chính thức và bài thảo luận về ERC-8211 đều nói rất rõ vấn đề này, đó là ERC-4337 và EIP-5792 hiện có thực sự đã đẩy mô hình cũ "một chữ ký tương ứng với một lệnh gọi" lên giai đoạn mới "một chữ ký có thể đóng gói nhiều lệnh gọi", nhưng các tham số trong những lệnh gọi này về bản chất vẫn phần lớn bị đóng băng tại thời điểm ký.

Nói cách khác, số tiền, giá trị mục tiêu, đầu ra dự kiến mà người dùng điền vào khi ký, đến khi thực sự thực thi, sẽ không tự động điều chỉnh vì sự thay đổi trạng thái trên chuỗi.

Nhưng bản thân DeFi lại đầy rẫy sự không chắc chắn. Đầu ra thực tế của một lần Swap phụ thuộc vào trượt giá và thanh khoản trong khối thực thi đó; thời gian nhận tiền và số tiền cuối cùng nhận được của một lần Bridge phụ thuộc vào cơ chế và phí của chính cây cầu; tỷ lệ share-to-asset của giao thức cho vay hoặc Vault cũng sẽ liên tục thay đổi.

Rốt cuộc, giá trị mà người dùng hoặc Agent nhìn thấy khi ký, nhiều khi chỉ là một ước tính tại thời điểm đó, chứ không phải là kết quả thực tế khi thực thi.

Để hiểu ERC-8211 giải quyết điều gì, trước tiên hãy xem một ví dụ điển hình nhất, đó là giả sử Agent muốn làm một việc có vẻ rất bình thường - đổi ETH trong tài khoản lấy USDC, sau đó gửi toàn bộ vào Spark để kiếm lãi.

Trong mô hình xử lý batch tĩnh hiện có, Agent phải ước tính trước khi ký xem sẽ nhận được bao nhiêu USDC sau khi Swap, điều này thường buộc bạn phải ghi cứng số tiền đầu vào của bước thứ hai trước khi ký, và nếu ước tính quá cao, số tiền thực tế nhận được không đủ, toàn bộ lô sẽ rollback ngay lập tức; nếu ước tính quá thấp, lại để lại một phần vốn nhàn rỗi trong ví không làm được gì.

Nói cách khác, về cơ bản đã rơi vào tình thế tiến thoái lưỡng nan, hoặc là chấp nhận rủi ro thất bại, hoặc là chấp nhận chi phí cơ hội. Đây là lý do tại sao nhiều quy trình trên chuỗi trông có vẻ không phức tạp, một khi các bước kéo dài đến 5, 8 bước, thậm chí vượt qua hai chuỗi, sẽ nhanh chóng trở nên mong manh, không phải vì bản thân chiến lược phức tạp đến mức không thể mô tả, mà là vì mô hình thực thi hiện tại quá phụ thuộc vào các tham số được ghi cứng trước.

Tóm lại, giới hạn trên của khả năng xử lý batch tĩnh, trên thực tế quyết định giới hạn trên của chiến lược mà Agent có thể thực sự thực thi một cách an toàn.

Từ góc độ này, điều mà ERC-8211 muốn giải quyết không phải là AI Agent đưa ra quyết định như thế nào, mà là sau khi Agent đã đưa ra quyết định, liệu trên chuỗi có một cách thức tự nhiên hơn, ổn định hơn, an toàn hơn để thực thi nó hay không. Từ đó lần đầu tiên mang lại cho việc thực thi trên chuỗi một hình thức biểu đạt được thiết kế nguyên bản cho AI Agent.

2. ERC-8211 thực sự thay đổi điều gì?

Đột phá cốt lõi của ERC-8211 không nằm ở việc nhồi nhét nhiều bước hơn vào một chữ ký, mà là nâng cấp xử lý batch từ một chuỗi giao dịch với các tham số được ghi cứng thành một "chương trình mà các tham số được đánh giá động tại hiện trường thực thi".

Nghe có vẻ trừu tượng, nhưng không khó hiểu, chính thức đã dùng một câu để mô tả nó: Từ các giao dịch đến các chương trình.

Điều này có nghĩa là ERC-8211 không còn coi batch là một danh sách các hành động được thực thi tuần tự, mà coi nó như một chương trình thực thi được đánh giá trong thời gian chạy và mang theo các điều kiện an toàn. Cụ thể phân tích, nó đạt được điều này thông qua ba nguyên thủy có thể kết hợp:

Fetchers (Bộ lấy giá trị): Xác định tham số này lấy giá trị từ đâu, nó có thể là một truy vấn về số dư hiện tại của một địa chỉ nào đó, khiến tham số không còn là ảnh chụp nhanh tại thời điểm ký, mà là số đọc thời gian thực được lấy từ trạng thái trên chuỗi tại khoảnh khắc thực thi;
Constraints (Bộ ràng buộc): Sau khi tham số được giải mã, nó còn phải thông qua kiểm tra ràng buộc nội tuyến - ví dụ "USDC nhận được ít nhất phải ≥ 2500", hoặc "trượt giá không được vượt quá 0.5%", những ràng buộc này được kiểm tra trước khi giá trị được định tuyến vào lệnh gọi tiếp theo, bất kỳ mục nào không đạt, toàn bộ lô ngay lập tức rollback;
Predicates (Điều kiện kích hoạt): Có thể hiểu là người gác cổng giữa các bước, không chịu trách nhiệm tạo ra giá trị, mà chịu trách nhiệm đánh giá xem có tiếp tục thực thi hay không, ví dụ trong cảnh cross-chain, batch phía Ethereum có thể sử dụng predicate để chờ đợi điều kiện "WETH từ cross-chain đã đến tài khoản", không commit cho đến khi tiền đến;

Trong thiết kế này, mỗi tham số phải trả lời hai câu hỏi: Thứ nhất, giá trị này khi thực thi nên đến từ đâu; thứ hai, trước khi nó thực sự được sử dụng trong lệnh gọi, cần đáp ứng điều kiện gì. Sau khi kết hợp ba yếu tố này, một batch không còn chỉ là một chuỗi giao dịch, mà là một chương trình nhúng kiểm tra an toàn.

Nói cho cùng, mô hình tư duy của xử lý batch tĩnh là một danh sách - thực thi tuần tự ba bước A, B, C; còn mô hình tư duy của ERC-8211 là một chương trình có điều kiện - sau khi A thực thi, lấy đầu ra thực tế của A làm đầu vào cho B; B đáp ứng ràng buộc mới vào C; bất kỳ bước nào không đạt dự kiến, toàn bộ lô rollback.

Chúng ta thực ra có thể hiểu đơn giản nó như một cơ chế "xử lý hàng loạt thông minh" được thiết kế riêng cho AI Agent và các thao tác DeFi phức tạp, bởi vì trong các thao tác trên chuỗi truyền thống, hoàn thành một chiến lược DeFi phức tạp thường cần nhiều giao dịch độc lập: rút vốn từ giao thức cho vay, hoán đổi token, sau đó gửi vào một giao thức khác (Đọc thêm Toàn cảnh giao thức AI tiền mã hóa: Xuất phát từ chiến trường chính của Ethereum, làm thế nào để xây dựng hệ điều hành mới cho AI Agent?).

Mỗi bước đều cần ký và xác nhận riêng, điều này đã rườm rà đối với người dùng là con người, càng là nút thắt cổ chai đối với AI Agent cần thao tác tự chủ tần suất cao. Giải pháp của ERC-8211 là cho phép nhiều thao tác blockchain được kết hợp thực thi trong một giao dịch, mỗi bước phân giải động giá trị thực tế khi thực thi, và phải đáp ứng điều kiện định nghĩa trước mới có thể tiếp tục bước tiếp theo.

Ví dụ, một Agent có thể hoàn thành trong một giao dịch ký: Rút vốn từ Aave → Hoán đổi số tiền thực tế nhận được trên Uniswap → Gửi kết quả hoán đổi vào Compound - tất cả thực thi nguyên tử, không cần viết hợp đồng thông minh mới.

3. Tại sao nói nó liên quan nhiều hơn đến ví, đặc biệt là ví thông minh

Lý do ERC-8211 đáng để ngành công nghiệp ví chú ý, không chỉ vì nó phù hợp với Agent, mà còn vì nó sẽ định nghĩa lại vị trí của ví trong chuỗi tương tác.

Ví trong quá khứ giống như một bộ ký an toàn hơn, nhiệm vụ của nó là bảo quản khóa riêng, hiển thị giao dịch, để người dùng xác nhận, sau đó gửi chữ ký đi, vai trò này đã đủ quan trọng trong thời đại EOA, và vẫn tiếp tục tồn tại trong thời đại trừu tượng hóa tài khoản, nhưng nếu trong tương lai ngày càng nhiều thao tác trên chuỗi được thực hiện thay mặt bởi Agent, thì vai trò của

cái ví

hợp đồng thông minh

Chào mừng tham gia cộng đồng chính thức của Odaily