BTC
ETH
HTX
SOL
BNB
Xem thị trường
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

Ethereum pushes "What You See Is What You Sign": Why is Clear Signing an essential capability patch for the AI era?

imToken
特邀专栏作者
2026-05-16 04:00
Bài viết này có khoảng 3575 từ, đọc toàn bộ bài viết mất khoảng 6 phút
The Agent era will further amplify the "blind signing" problem—before clicking confirm, do you really understand what this transaction will do?
Tóm tắt AI
Mở rộng
  • Core Thesis: As AI Agents enter crypto wallets and on-chain execution environments, wallet security is shifting from "private key control" to "transaction intent verification." Clear Signing and Verifiable UI become core pathways to prevent users from losing assets due to blind signing or misleading signatures.
  • Key Elements:
    1. While AI Agents improve efficiency, they also extend the security perimeter. Attackers can use prompt injection to induce the system to execute abnormal transfers (e.g., the 3 billion DRB token incident). Asset security no longer relies solely on private keys.
    2. Most users cannot understand transaction data during "blind signing" (e.g., hexadecimal parameters). The Ethereum Foundation emphasizes that ERC-7730 (Clear Signing standard) converts raw data into human-readable content, such as "Swap 1,000 USDC for 0.42 WETH."
    3. Verifiable UI requires establishing a trustworthy correspondence between what the user sees regarding the transaction content and the on-chain execution result, preventing DApp frontends from being tampered with or forged to facilitate actual asset transfers.
    4. ERC-7730 supplements ABI information through structured JSON files, which wallets and transaction simulation systems can directly consume, enhancing verification capabilities before signing.
    5. In the AI Agent era, wallets must evolve from a "confirm button" to a "final verification layer before signing," safeguarding asset boundaries in automated transactions and ensuring users understand the intent and consequences of each operation.

Trong một thời gian dài trước đây, khi nói về bảo mật ví, chúng ta thường được nhắc nhở chủ yếu về hai điều: giữ gìn cụm từ hạt giống (seed phrase) và không nhấp vào các liên kết lừa đảo.

Bởi vì trong các ví tự quản lý, cụm từ hạt giống/khoá riêng tư luôn đồng nghĩa với quyền kiểm soát tài sản, tầm quan trọng của nó không bao giờ là quá đáng. Tuy nhiên, khi các AI Agent bắt đầu thâm nhập vào các kịch bản ví, giao dịch, thanh toán và thực thi trên chuỗi, một vấn đề mới đang trở nên ngày càng quan trọng, đó là ngay cả khi khóa riêng tư của bạn không bị lộ, tài sản vẫn có thể bị chuyển đi do một lần ủy quyền sai, một lần ký gây hiểu lầm, hoặc một lệnh tự động bị nhiễm độc.

Nói cách khác, bảo mật ví đang chuyển từ "ai có thể kiểm soát tài sản" sang "tại sao tài sản bị động, theo cách nào, và liệu có phù hợp với ý định thực sự của người dùng hay không".

Và đây cũng là lý do chính khiến Clear Signing được thúc đẩy hơn nữa vào quy trình tiêu chuẩn hóa mở của Ethereum vào ngày 12 tháng 5. Nói một cách khách quan, nó không giải quyết một vấn đề mới, mà là một vấn đề cũ tồn tại lâu dài trong thế giới tiền điện tử: Nhiều người dùng không phải là không coi trọng bảo mật, mà là trước khi nhấp vào "Xác nhận", họ hoàn toàn không hiểu mình đang ký cái gì.

I. Kỷ nguyên AI Agent: Ranh giới bảo mật Web3 đang âm thầm bị kéo dài

Như chúng ta đã biết, nhờ sự xuất hiện của AI Agent, các tương tác trên chuỗi Web3 cũng đang phát triển theo hướng gần gũi hơn với ngôn ngữ tự nhiên.

Ví dụ, trước đây để hoàn thành một thao tác, bạn cần tự mở DApp, kết nối ví, chọn đường dẫn, xác nhận ủy quyền, khởi tạo giao dịch; mỗi bước đều cần thao tác thủ công và xác nhận qua cửa sổ bật lên. Trong tương lai, quy trình này có thể được đơn giản hóa đáng kể thành một câu nói: "Giúp tôi tìm một pool stablecoin có lợi suất cao hơn", "Giúp tôi claim airdrop rồi đổi sang ETH", v.v.

Từ góc độ trải nghiệm, đây chắc chắn là một sự tiến bộ. AI Agent có thể giúp người dùng hiểu thông tin, phân tích các bước, tạo giao dịch, nâng cao hiệu quả, và thậm chí tự động hoàn thành các thao tác trong một phạm vi quyền hạn nhất định.

Nhưng mặt trái của việc tăng hiệu quả là ranh giới bảo mật bị kéo dài ra.

Bởi vì lúc này, thứ thực sự quyết định dòng chảy của tiền không chỉ còn là bản thân người dùng, mà còn có thể bao gồm sự hiểu biết của Agent, các nguồn dữ liệu bên ngoài và nhiều khâu khác. Chỉ cần một trong những khâu đó bị nhiễm độc, "giúp tôi thực hiện" mà người dùng nhìn thấy có thể biến thành "chuyển tiền hộ tôi" mà kẻ tấn công mong muốn.

Gần đây, đã có kẻ tấn công sử dụng prompt injection trên X để lừa các hệ thống liên quan đến AI Agent thực hiện chuyển khoản bất thường, liên quan đến 3 tỷ token DRB, trị giá khoảng 150.000 đến 200.000 USD. Cốt lõi của những sự việc như vậy không phải là rò rỉ khóa riêng tư truyền thống, mà là vấn đề về cách hệ thống AI hiểu đầu vào, cách nó có được quyền hạn, và cách nó truyền lệnh đến lớp thực thi trên chuỗi.

Điều này cũng xác nhận rằng kẻ tấn công không nhất thiết phải trực tiếp phá vỡ ví, chỉ cần khiến Agent, dưới quyền hạn quá cao, nhầm lẫn đầu vào độc hại như một lệnh hợp lệ, là có thể gây ra tổn thất tài sản thực tế.

Rốt cuộc, trong các kịch bản Internet truyền thống, AI bị ảnh hưởng bởi prompt injection có thể chỉ dẫn đến trả lời sai, rò rỉ ngữ cảnh, hoặc thực thi API sai. Nhưng trong các kịch bản tiền điện tử, một khi Agent được kết nối với ví, có quyền ủy quyền và có thể khởi tạo giao dịch, một lệnh sai có thể trực tiếp trở thành một giao dịch chuyển tiền trên chuỗi. Các giao dịch trên chuỗi là không thể đảo ngược, điều này khiến vấn đề bảo mật của AI Agent không còn chỉ là "bảo mật mô hình", mà là bảo mật tài sản.

Do đó, bảo mật ví trong kỷ nguyên AI Agent không thể chỉ dựa vào việc "làm cho AI thông minh hơn". Điều thực sự quan trọng là, giữa việc Agent tạo ra giao dịch và người dùng xác nhận chữ ký, phải có một lớp giao diện bảo mật đủ rõ ràng, có thể xác minh và dễ hiểu.

Lớp giao diện đó chính là ví.

II. Nhấp "Xác nhận" có thực sự đồng nghĩa với việc người dùng đã hiểu?

Đối với người dùng thông thường, hành động quen thuộc nhất với ví có lẽ là "Xác nhận".

Kết nối DApp cần xác nhận, Swap cần xác nhận, ủy quyền token cần xác nhận, cross-chain cần xác nhận, claim airdrop cần xác nhận, staking/cho vay hoặc mint NFT cũng đều cần xác nhận.

Vấn đề là, nhiều trang xác nhận không thực sự cho người dùng biết "điều gì sẽ xảy ra sau khi xác nhận".

Thông thường, những gì người dùng thấy chỉ là một chuỗi tên hàm, đôi khi là một đống dữ liệu thập lục phân khó hiểu, đôi khi chỉ là một dòng chữ "Approve" hoặc "Sign Message" rất chung chung. Về mặt kỹ thuật, những thông tin này có thể không sai; nhưng đối với đa số người dùng, chúng không đủ để hình thành một phán đoán hiệu quả.

Đây là điểm nguy hiểm nhất của "ký mù" (blind signing).

"Ký mù" không có nghĩa là người dùng hoàn toàn không nhìn, mà là thông tin họ nhìn thấy không đủ để hỗ trợ phán đoán. Giống như bạn chuẩn bị ký một hợp đồng, nhưng nội dung hợp đồng được viết bằng một ngôn ngữ bạn không hiểu, và cuối cùng chỉ hiển thị một nút "Đồng ý". Bạn biết mình đang ký, nhưng bạn không biết mình sẽ phải chịu hậu quả gì sau khi ký.

Trong thông báo liên quan đến Clear Signing, Ethereum Foundation cũng nhấn mạnh rằng bước cuối cùng của nhiều cuộc tấn công lớn không phải là lỗ hổng mã, mà là người dùng đã phê duyệt một giao dịch mà họ thực sự không thể hiểu được. Nếu việc xác nhận giao dịch được cho là tuyến phòng thủ cuối cùng để người dùng kiểm soát tài sản, thì "ký mù" sẽ làm cho tuyến phòng thủ này mất tác dụng.

Vì vậy, nếu như vài năm trước, Account Abstraction giải quyết vấn đề "làm thế nào để thực thi thuận tiện hơn", thì Clear Signing giải quyết vấn đề "làm thế nào để xác minh rõ ràng hơn trước khi thực thi". Hai điều này thực chất là hai mặt của một vấn đề - bởi vì nếu không có khả năng giải thích chữ ký tốt hơn, thì tự động hóa càng phức tạp, khả năng tài khoản càng mạnh mẽ, thì càng có thể tạo ra không gian sai sót lớn hơn.

ERC-7730 xuất hiện đúng vào thời điểm này. Theo mô tả của chính đề xuất EIP-7730, nó là một định dạng dữ liệu có cấu trúc cho Clear Signing, bổ sung thông tin ngoài ABI và loại thông điệp thông qua các tệp JSON, chuyển đổi dữ liệu giao dịch thô thành nội dung hiển thị phù hợp hơn cho việc xác minh của con người, đồng thời cũng có thể được tiêu thụ trực tiếp bởi các hệ thống máy móc như trình mô phỏng giao dịch.

Nói một cách dễ hiểu hơn, ERC-7730 không thay đổi bản thân giao dịch trên chuỗi, mà thêm một lớp giải thích được tiêu chuẩn hóa giữa giao dịch và người dùng. Lấy một ví dụ để minh họa trực quan, như hình dưới đây, trước đây ví có thể chỉ hiển thị bộ chọn hàm và tham số, nhưng sau khi áp dụng ERC-7730, nó sẽ hiển thị nội dung thao tác cụ thể mà người dùng có thể đọc được.

Trên cơ sở này, bất kỳ ví nào hỗ trợ ERC-7730 đều có thể hiển thị bộ chọn hàm gốc và tham số số nguyên thành nội dung mà con người có thể đọc được như "Swap 1,000 USDC lấy ít nhất 0.42 WETH". Điều này có vẻ chỉ là cải tiến về mặt giao diện người dùng, nhưng thực chất là một nâng cấp cơ bản về khả năng bảo mật:

Chỉ khi người dùng hiểu được nội dung giao dịch, thì việc xác nhận mới có ý nghĩa thực tế. Và chỉ khi ví có thể hiển thị có cấu trúc ý định giao dịch, người dùng mới có cơ hội phát hiện vấn đề trước khi ký.

III. Giao diện có thể xác minh (Verifiable UI): Làm cho những gì người dùng nhìn thấy trở thành những gì thực sự sẽ xảy ra

Điều này đưa chúng ta trở lại với Verifiable UI mà chúng tôi đã nhấn mạnh gần đây.

Nếu mục tiêu của Clear Signing là giúp người dùng hiểu họ đã ký cái gì, thì vấn đề mà Verifiable UI giải quyết còn đi xa hơn: Liệu nội dung người dùng nhìn thấy có thể thiết lập một mối quan hệ tương ứng đáng tin cậy với việc thực thi thực tế trên chuỗi hay không?

Điều này cực kỳ quan trọng trong các kịch bản Web3.

Nhiều người dùng có thói quen tin tưởng vào giao diện frontend của DApp. Trang web ghi "claim phần thưởng", người dùng nghĩ rằng họ đang claim phần thưởng; trang web ghi "stake", người dùng nghĩ rằng họ đang stake; trang web ghi "xác minh bảo mật", người dùng nghĩ rằng họ chỉ đang xác minh danh tính.

Nhưng thứ thực sự có thể động đến tài sản không phải là nút bấm trên trang web, mà là giao dịch cuối cùng được ký trong ví.

Giao diện frontend của DApp có thể bị tấn công, tên miền có thể bị giả mạo, văn bản trên trang có thể bị ngụy trang, và thậm chí thông tin mà AI Agent đọc được cũng có thể đến từ các trang web hoặc nội dung mạng xã hội bị nhiễm độc. Nếu ví chỉ máy móc bật ra một nút xác nhận, thì người dùng vẫn ở trong trạng thái "tin tưởng vào giao diện frontend".

Đây cũng là ý nghĩa quan trọng của việc imToken lên kế hoạch hỗ trợ ERC-7730 và thúc đẩy Verifiable UI + Clear Signing.

Nó không chỉ đơn giản là hiển thị thêm vài dòng chữ trên trang xác nhận, mà là biến ví từ "nút cuối cùng của giao dịch" thành "lớp xác minh cuối cùng trước khi ký". Khi người dùng hoặc AI Agent chuẩn bị khởi tạo một giao dịch, ví cần cố gắng cho người dùng biết giao dịch này thực sự gọi đến hợp đồng nào, tài sản nào thực sự được chuyển đi, đối tượng ủy quyền là ai, phạm vi ủy quyền rộng đến đâu, và liệu kết quả cuối cùng có khớp với những gì trang web hiển thị hay không.

Khả năng này sẽ càng trở nên quan trọng hơn trong kỷ nguyên AI Agent.

Bởi vì Agent có thể giúp người dùng làm nhiều việc, nhưng Agent c

cái ví
Sự an toàn