Từ việc mù quáng nhấn "Có", đến khi nhìn rõ mới ký: Sigil làm thế nào để thêm một lớp bảo vệ an toàn cho AI Agent?

特邀专栏作者

2026-07-03 08:30

Bài viết này có khoảng 4992 từ, đọc toàn bộ bài viết mất khoảng 8 phút

AI Agent có thể hành động thay con người, nhưng không nên để một thông báo xác nhận mơ hồ quyết định tài sản và quyền truy cập thiết bị của chúng ta.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Khi AI Agent bắt đầu thực hiện các thao tác nhạy cảm như giao dịch trên chuỗi thay mặt người dùng, cơ chế "xác nhận mơ hồ" truyền thống tiềm ẩn các rủi ro như hộp đen, giả mạo và nghịch lý niềm tin. Sản phẩm Sigil do imToken phát hành, dựa trên nguyên tắc "Thấy gì ký nấy" (What you see is what you sign), phân tích yêu cầu thực tế thành các thẻ xác nhận rõ ràng, yêu cầu người dùng phê duyệt độc lập thông qua Passkey và xác thực sinh trắc học, từ đó thiết lập một lớp bảo vệ an toàn giữa Agent và ví, đảm bảo người dùng giữ quyền được biết và quyền kiểm soát cuối cùng.
Các yếu tố chính:
1. Rủi ro mới trong hành động của AI Agent: Người dùng ủy quyền phải đối mặt với vấn đề "hộp đen", phê duyệt ý định mơ hồ thay vì thao tác thực tế; Phản hồi trò chuyện thiếu chữ ký số, giao diện xác nhận có thể bị Agent giả mạo, dẫn đến mất mát tài sản hoặc rò rỉ dữ liệu.
2. Cơ chế cốt lõi của Sigil: Người dùng có thể đặt trước chiến lược, cho phép Agent tự động thực hiện các thao tác rủi ro thấp; Đối với các thao tác nhạy cảm (như giao dịch tiền tệ, ký trên chuỗi), Sigil tạm dừng quy trình, phân tích ra các thẻ xác nhận rõ ràng gửi đến Telegram, yêu cầu người dùng ký độc lập thông qua Passkey và xác thực sinh trắc học.
3. Ba lớp bảo vệ an toàn: Đầu tiên, người dùng có thể nhìn thấy chính xác (What you see is what you sign) các tham số như tài sản thực tế, số tiền, người nhận; Thứ hai, người ký phải là chính người dùng (được xác thực qua Passkey); Cuối cùng, trang xác nhận được hiển thị bởi một mô-đun độc lập trong sandbox, không thể bị Agent giả mạo hoặc can thiệp.
4. Định vị sản phẩm và kịch bản ứng dụng: Sigil là sự khám phá mang tính sản phẩm hóa của imToken đối với đề bài "Ký" (Sign), không chỉ áp dụng cho các giao dịch trên chuỗi tiền mã hóa mà trong tương lai có thể mở rộng sang các thao tác ủy quyền của AI Agent như truy cập dữ liệu, sửa đổi tệp tin, mua dịch vụ,... nhằm trở thành cơ sở hạ tầng để người dùng quản lý danh tính thông minh và quyền hạn.

Hãy tưởng tượng, trong tương lai bạn chỉ cần nói với AI Agent: "Giúp tôi dùng một nửa số tiền khả dụng trong ví để mua thêm ETH".

Agent ngay lập tức bắt đầu đọc số dư, tìm kiếm các pool thanh khoản, so sánh giá và xây dựng đường đi cho giao dịch. Vài chục giây sau, nó gửi cho bạn một tin nhắn: "Đã tìm thấy phương án mua phù hợp, bạn có xác nhận không?"

Bạn trả lời "Có".

Nhưng ngay tại thời điểm đó, bạn thực sự đã phê duyệt điều gì? Nó đã chọn pool giao dịch nào, giá dự kiến và độ trượt giá (slippage) là bao nhiêu, đã gọi đến giao thức nào, sử dụng ví nào và bao nhiêu tài sản, và liệu có bao gồm ủy quyền token (token approval) hay các thao tác bổ sung khác không? Bạn không thực sự thấy những thông tin này, bạn chỉ chọn tin tưởng vào bản tóm tắt của Agent về thao tác đó.

Đây chính là một loại rủi ro mới đang dần lộ diện khi AI Agent chuyển từ "trả lời câu hỏi" sang "hành động thay con người": Agent đã có thể duyệt web, đăng nhập tài khoản, thậm chí hoàn tất thanh toán và ký tên trên chuỗi (on-chain signature), nhưng giao diện ủy quyền cuối cùng mà người dùng phải đối mặt, thường vẫn chỉ là một tin nhắn trò chuyện mơ hồ, cùng một tùy chọn xác nhận hầu như không chứa thông tin hữu ích nào.

Một câu "Có" bắt đầu quyết định tiền bạc, dữ liệu và thiết bị của bạn.

Vì vậy, trong đợt nâng cấp thương hiệu mới nhất của imToken, bên cạnh Store, Send, Stake, đã xuất hiện chữ S thứ tư – Sign. Nếu ba chữ S đầu tiên tương ứng với việc bảo quản tài sản, luân chuyển giá trị và tham gia mạng lưới, thì Sign giải quyết vấn đề: khi ngày càng nhiều phần mềm bắt đầu hành động thay người dùng, làm thế nào người dùng tiếp tục nắm giữ quyền được biết (right to know), quyền phê duyệt và quyền kiểm soát cuối cùng.

Và Sigil, chính là sản phẩm POC (Proof of Concept – Bằng chứng khái niệm) đầu tiên được khám phá ban đầu dưới chủ đề Sign. Nguyên tắc cốt lõi mà nó đưa ra rất thú vị: What you see is what you sign – Bạn thấy gì, bạn ký đó.

1. Khi Agent bắt đầu hành động, tại sao ví cần hiểu lại về Sign?

Trước đây, hầu hết các rủi ro ký (signature) mà ví tiền điện tử phải đối mặt chủ yếu đến từ việc người dùng không hiểu nội dung giao dịch.

Một giao dịch trên chuỗi, ở lớp nền, có thể chỉ biểu hiện dưới dạng địa chỉ hợp đồng phức tạp, tham số hàm và dữ liệu thập lục phân. Người dùng thông thường rất khó trực tiếp phán đoán nó có nghĩa là chuyển khoản/đổi token, hay một thao tác tài sản nguy hiểm hơn nào đó.

Do đó, ví cần phân tích dữ liệu thô thành thông tin mà con người có thể hiểu được, cho phép người dùng nhìn thấy thông tin chi tiết trước khi ký (xem thêm bài viết 'Ethereum thúc đẩy "Thấy gì ký nấy": Tại sao Clear Signing là bản vá năng lực cần thiết trong kỷ nguyên AI?'). Clear Signing, tức là "ký rõ ràng" hoặc "thấy gì ký nấy", chính xác là để giải quyết khoảng cách giữa dữ liệu máy móc và sự hiểu biết của người dùng.

Nhưng vấn đề do AI Agent đặt ra thậm chí còn phức tạp hơn.

Bởi vì thứ mà người dùng không nhìn thấy, giờ đây không chỉ là một giao dịch trên chuỗi đơn lẻ, mà có thể là cả một chuỗi các thao tác được Agent tự động lên kế hoạch và thực thi.

Như đã đề cập ở trên, để hoàn thành mục tiêu như "giúp tôi dùng một nửa số tiền khả dụng hiện tại để mua thêm ETH", một Agent có thể cần đọc số dư ví, tìm kiếm các pool trên chuỗi, gọi các công cụ bên thứ ba, thực thi script và hoàn tất giao dịch. Trong quá trình này, người dùng vừa không thể kiểm tra từng yêu cầu cơ bản một cách chi tiết, lại vừa phải đưa ra quyết định cuối cùng trước khi tài sản thực sự được đổi.

Phương thức ủy quyền mà nhiều Agent hiện tại sử dụng là gửi một đoạn giải thích ngắn trong cửa sổ trò chuyện, rồi chờ người dùng trả lời "Có", "Xác nhận", hoặc nhấp vào một nút thông thường.

Phương thức này có vẻ như đã hoàn tất việc ủy quyền của người dùng, nhưng thực tế vẫn tồn tại một số vấn đề rõ ràng.

Đầu tiên, nó là một hộp đen. Người dùng biết mình đã phê duyệt một việc gì đó, nhưng không nhất thiết biết chính xác số tiền đã phê duyệt là bao nhiêu, bên nhận là ai, và cuối cùng Agent đã ký thay mình cái gì. Các tham số thao tác thực sự bị ẩn đằng sau một câu mô tả ngôn ngữ tự nhiên có tính khái quát cao. Người dùng xác nhận chỉ là một ý định mơ hồ, chứ không phải hành động thực tế sắp xảy ra.

Thứ hai, trả lời trong trò chuyện không tương đương với chữ ký số (digital signature). Chỉ cần ai đó có thể tiếp cận thiết bị đã đăng nhập, dù là lấy được điện thoại, kiểm soát tài khoản trò chuyện, hay trực tiếp thao tác thay người dùng ở bên cạnh, đều có thể nhập một câu "Có". Hệ thống nhiều nhất chỉ có thể xác nhận tin nhắn này đến từ một tài khoản nào đó, nhưng không thể xác nhận nó thực sự được ủy quyền bởi chính chủ sở hữu tài khoản.

Khó khăn hơn nữa là, bản thân giao diện xác nhận cũng có thể bị giả mạo. Nếu Agent có thể tự tạo ra tin nhắn phê duyệt, thì bên khởi tạo thao tác đồng thời cũng kiểm soát giao diện hiển thị nội dung thao tác cho người dùng. Nó hoàn toàn có thể bỏ sót các tham số quan trọng, sử dụng từ ngữ mơ hồ, thậm chí hiển thị một thao tác có vẻ vô hại nhưng lại gửi một yêu cầu khác ở hậu trường.

Điều này tạo ra một nghịch lý niềm tin rõ ràng: Chúng ta muốn thông qua giao diện xác nhận để hạn chế Agent, nhưng lại để Agent tự quyết định người dùng có thể thấy gì khi xác nhận.

Khi Agent chỉ chịu trách nhiệm tóm tắt bài viết hoặc sắp xếp thông tin, sự thiếu minh bạch này có thể chỉ dẫn đến câu trả lời sai. Nhưng khi nó bắt đầu tiếp cận tài khoản, tiền bạc, hệ thống tệp và môi trường đầu cuối, hậu quả của một lần phê duyệt mơ hồ có thể leo thang từ "câu trả lời không chính xác" thành mất mát tài sản thực tế, rò rỉ dữ liệu hoặc rủi ro thiết bị (xem thêm bài viết 'Sign không chỉ là ký tên: Khi AI Agent ký thay bạn, ai vẫn nắm quyền kiểm soát?').

Vì vậy, kỷ nguyên AI Agent cần không chỉ là nhiều nút "Có" hơn, mà là một cơ chế ký (signing mechanism) có thể chứng minh "người dùng đã thấy gì, người dùng đã phê duyệt gì, và hệ thống cuối cùng đã thực thi cái gì".

2. Sigil: Lá chắn chữ ký giữa AI Agent và Ví

Đây cũng là điều Sigil mới được imToken giới thiệu sẽ làm – tự định vị mình như một rào chắn an toàn (safety guardrail) nằm giữa AI Agent và Ví.

Nó không cố gắng ngăn Agent tự động thực hiện mọi tác vụ. Ngược lại, người dùng có thể ủy quyền rõ ràng cho Agent trong lần thiết lập đầu tiên, quy định những thao tác rủi ro thấp nào có thể tự hoàn thành, và những thao tác nhạy cảm nào phải tạm dừng, chờ người dùng thực hiện một lần phê duyệt độc lập, rõ ràng và có thể xác minh.

Trong ranh giới đã được thiết lập, Agent vẫn có thể hành động nhanh chóng.

Nhưng chỉ cần liên quan đến các thao tác mà người dùng đánh dấu là nhạy cảm, đặc biệt là chi tiêu tiền hoặc ký giao dịch, Sigil sẽ tạm dừng quy trình, phân tích yêu cầu thực tế thành các thẻ xác nhận rõ ràng, và gửi chúng đến Telegram của người dùng. Người dùng cần sử dụng Passkey và xác thực sinh trắc học (biometric) để hoàn tất việc ký, thì thao tác mới được tiếp tục thực thi.

Nhìn chung, toàn bộ quy trình có thể được tóm tắt thành bốn bước:

Agent khởi tạo thao tác: Nó có thể tiếp tục duyệt web, đặt dịch vụ, gửi yêu cầu hoặc chuẩn bị một giao dịch, không khác gì cách làm việc của Agent thông thường;
Xác định xem có kích hoạt chính sách bảo mật đã đặt trước hay không: Nếu thuộc thao tác rủi ro thấp được phép Agent tự hoàn thành, quy trình có thể tiếp tục; nếu liên quan đến các hành vi nhạy cảm như gửi tin nhắn, xóa tệp, chạy mã, chi tiêu tiền hoặc ký tên trên chuỗi, Sigil sẽ tạm dừng thực thi và phân tích yêu cầu này.
Người dùng phê duyệt rõ ràng qua Passkey: Một thẻ xác nhận rõ ràng được gửi đến Telegram, trong đó hiển thị trực tiếp thương gia, số tiền, bên nhận và các tham số quan trọng khác. Những gì người dùng thấy không phải là một câu mô tả do Agent tự viết, mà là nội dung có cấu trúc được phân tích từ thao tác thực tế.
Cuối cùng, chỉ sau khi cổng Sigil (Sigil gateway) xác minh chữ ký của người dùng, Agent mới có thể tiếp tục thực thi. Nếu không có sự phê duyệt của người dùng, sẽ không có khoản tiền hay chữ ký nào được chuyển đi;

Điểm mấu chốt của cơ chế này không chỉ là thêm một lần xác thực sinh trắc học, mà là thiết lập lại mối quan hệ giữa hiển thị, ký tên và thực thi: Nội dung hiển thị là yêu cầu thực tế, người dùng ký vào nội dung được hiển thị, và hệ thống cuối cùng thực thi phải chính xác yêu cầu đã được ký.

Một khi ba yếu tố này không nhất quán, Sigil sẽ ngăn chặn thao tác.

Nói một cách cốt lõi, Sigil không yêu cầu người dùng phê duyệt từng hành động của Agent một cách riêng lẻ. Thay vào đó, thông qua việc thiết lập chiến lược, nó cho phép người dùng quyết định trước những hành vi nào có thể tự động hoàn thành, và những hành vi nào phải do chính họ phê duyệt. Người dùng có thể trực tiếp chọn các mức độ bảo mật khác nhau như Relaxed (Thoải mái), Balanced (Cân bằng) hoặc Strict (Nghiêm ngặt), hoặc vào chế độ Custom (Tùy chỉnh) để đặt quy tắc riêng cho từng loại thao tác.

Lấy chế độ Balanced làm ví dụ, một số hành vi rủi ro thấp có thể không cần phê duyệt thêm, trong khi các hành vi liên quan đến bảo mật tài sản cao như chạy mã hoặc lệnh terminal, thì phải được xác nhận qua Sigil.

Đối với việc chi tiêu tiền và ký giao dịch, bất kể người dùng chọn chiến lược bảo mật nào, cũng luôn cần sự phê duyệt của chính họ

cái ví

Sự an toàn

Chào mừng tham gia cộng đồng chính thức của Odaily