SlowMist × Bitget Báo cáo An ninh AI: Có thực sự an toàn khi giao tiền cho AI Agent như "Lobster" không?
- Quan điểm cốt lõi: Với việc AI Agent tích hợp sâu vào các kịch bản giao dịch Web3, mối đe dọa an ninh của chúng đã mở rộng từ các lỗ hổng phần mềm truyền thống sang nhiều cấp độ như tiêm nhiễm lời nhắc (Prompt Injection), tấn công chuỗi cung ứng plugin độc hại, lạm dụng quyền cao và rủi ro thao tác tài sản trên chuỗi, đòi hỏi phải xây dựng một hệ thống phòng vệ an ninh có hệ thống.
- Yếu tố then chốt:
- Mặt tấn công mới: Tiêm nhiễm lời nhắc (Prompt Injection) có thể thao túng logic quyết định của Agent, Skill/plugin độc hại trở thành điểm xâm nhập mới cho tấn công chuỗi cung ứng, cấu hình môi trường chạy không đúng dễ dẫn đến rò rỉ dữ liệu nhạy cảm.
- Rủi ro đầu độc chuỗi cung ứng: Giám sát phát hiện các Skill độc hại có đặc điểm tổ chức theo nhóm và hàng loạt, thường giả mạo các bước cài đặt để dụ người dùng thực thi tập lệnh độc hại từ xa, đánh cắp thông tin cục bộ.
- Rủi ro tài sản Web3 được khuếch đại: Giao dịch trên chuỗi có tính không thể đảo ngược, nếu Agent bị thao túng có thể dẫn đến thay thế địa chỉ, giả mạo số tiền và các tổn thất tài chính trực tiếp khác. Thiết kế rủi ro cao là liên kết hoàn toàn Agent với hệ thống kiểm soát tài sản.
- Thực hành an ninh tài khoản và API: Người dùng nên kích hoạt đăng nhập 2FA mạnh, Passkey, tạo tài khoản con chuyên dụng cho Agent và tuân theo nguyên tắc quyền tối thiểu cho API Key, luân chuyển và giám sát nhật ký gọi thường xuyên.
- Thiết kế an ninh ở tầng nền tảng: Các nền tảng giao dịch cần cung cấp khả năng cách ly tài khoản con, kiểm soát quyền API chi tiết, cơ chế xét duyệt plugin và khả năng an ninh cơ bản (như mã chống lừa đảo, danh sách trắng rút tiền) để giảm thiểu rủi ro tổng thể.
- Khung quản trị an ninh phân tầng: Báo cáo đề xuất tư duy quản trị an ninh năm tầng (L1-L5) từ đường cơ sở an ninh thống nhất, thu hẹp quyền hạn, nhận thức mối đe dọa bên ngoài, phân tích rủi ro trên chuỗi đến kiểm toán vận hành liên tục, nhằm xây dựng hệ thống phòng vệ khép kín.
Tác giả gốc: SlowMist & Bitget
I. Bối cảnh
Với sự phát triển nhanh chóng của công nghệ mô hình lớn, AI Agent đang dần phát triển từ trợ lý thông minh đơn giản thành hệ thống tự động hóa có khả năng thực hiện các tác vụ một cách tự chủ. Sự thay đổi này đặc biệt rõ ràng trong hệ sinh thái Web3. Ngày càng nhiều người dùng bắt đầu thử nghiệm để AI Agent tham gia vào phân tích thị trường, tạo chiến lược và giao dịch tự động, biến "trợ lý giao dịch tự động chạy 24/7" từ khái niệm dần trở thành hiện thực. Khi Binance và OKX ra mắt nhiều AI Skills, Bitget cũng đã ra mắt trang tài nguyên Skills Agent Hub, nơi Agent có thể trực tiếp kết nối với API của sàn giao dịch, dữ liệu on-chain và các công cụ phân tích thị trường, từ đó đảm nhận một phần công việc ra quyết định và thực thi giao dịch vốn cần con người thực hiện.
So với các script tự động truyền thống, AI Agent có khả năng ra quyết định tự chủ mạnh mẽ hơn và khả năng tương tác hệ thống phức tạp hơn. Chúng có thể kết nối với dữ liệu thị trường, gọi API giao dịch, quản lý tài sản tài khoản, thậm chí mở rộng hệ sinh thái chức năng thông qua plugin hoặc Skill. Sự nâng cấp về khả năng này đã giảm đáng kể rào cản sử dụng giao dịch tự động, đồng thời giúp nhiều người dùng phổ thông hơn bắt đầu tiếp xúc và sử dụng các công cụ giao dịch tự động.
Tuy nhiên, việc mở rộng khả năng cũng đồng nghĩa với việc mở rộng mặt tấn công.
Trong các kịch bản giao dịch truyền thống, rủi ro bảo mật thường tập trung vào các vấn đề như thông tin đăng nhập tài khoản, rò rỉ API Key hoặc tấn công lừa đảo. Trong kiến trúc AI Agent, các rủi ro mới đang xuất hiện. Ví dụ, tiêm prompt (Prompt Injection) có thể ảnh hưởng đến logic ra quyết định của Agent, plugin hoặc Skill độc hại có thể trở thành điểm xâm nhập tấn công chuỗi cung ứng mới, cấu hình môi trường chạy không đúng cũng có thể dẫn đến việc lạm dụng dữ liệu nhạy cảm hoặc quyền API. Một khi những vấn đề này kết hợp với hệ thống giao dịch tự động, tác động tiềm ẩn có thể không chỉ giới hạn ở rò rỉ thông tin, mà còn có thể trực tiếp gây ra tổn thất tài sản thực tế.
Đồng thời, khi ngày càng nhiều người dùng bắt đầu kết nối AI Agent với tài khoản giao dịch, kẻ tấn công cũng nhanh chóng thích ứng với sự thay đổi này. Các mô hình lừa đảo mới nhắm vào người dùng Agent, đầu độc plugin độc hại và lạm dụng API Key đang dần trở thành mối đe dọa bảo mật mới. Trong kịch bản Web3, các thao tác tài sản thường có giá trị cao và tính không thể đảo ngược, một khi hệ thống tự động bị lạm dụng hoặc dẫn dắt sai, tác động rủi ro cũng có thể bị khuếch đại thêm.
Dựa trên bối cảnh này, SlowMist và Bitget cùng nhau soạn báo cáo này, từ góc độ nghiên cứu bảo mật và thực tiễn nền tảng giao dịch, hệ thống hóa các vấn đề bảo mật của AI Agent trong nhiều kịch bản. Hy vọng báo cáo này có thể cung cấp một số tham khảo bảo mật cho người dùng, nhà phát triển và nền tảng, giúp thúc đẩy hệ sinh thái AI Agent phát triển ổn định hơn giữa an toàn và đổi mới.
II. Mối đe dọa bảo mật thực tế của AI Agent|SlowMist
Sự xuất hiện của AI Agent đã khiến hệ thống phần mềm dần chuyển từ "con người điều khiển thao tác" sang "mô hình tham gia ra quyết định và thực thi". Sự thay đổi kiến trúc này đã nâng cao đáng kể khả năng tự động hóa, nhưng đồng thời cũng mở rộng mặt tấn công. Từ cấu trúc kỹ thuật hiện tại, một hệ thống AI Agent điển hình thường bao gồm nhiều thành phần như lớp tương tác người dùng, lớp logic ứng dụng, lớp mô hình, lớp gọi công cụ (Tools / Skills), hệ thống bộ nhớ (Memory) và môi trường thực thi cơ sở. Kẻ tấn công thường không chỉ nhắm vào một mô-đun duy nhất, mà cố gắng ảnh hưởng dần đến quyền kiểm soát hành vi của Agent thông qua nhiều đường dẫn lớp.

1. Thao túng đầu vào và tấn công tiêm prompt
Trong kiến trúc AI Agent, đầu vào người dùng và dữ liệu bên ngoài thường được đưa trực tiếp vào ngữ cảnh mô hình, điều này khiến tiêm prompt (Prompt Injection) trở thành một phương thức tấn công quan trọng. Kẻ tấn công có thể tạo ra các lệnh cụ thể để dụ dỗ Agent thực hiện các thao tác lẽ ra không nên kích hoạt. Ví dụ, trong một số trường hợp, chỉ thông qua lệnh trò chuyện có thể dụ dỗ Agent tạo và thực thi lệnh hệ thống nguy hiểm cao.
Phương thức tấn công phức tạp hơn là tiêm gián tiếp, tức là kẻ tấn công ẩn lệnh độc hại trong nội dung trang web, hướng dẫn tài liệu hoặc chú thích mã. Khi Agent đọc những nội dung này trong quá trình thực hiện tác vụ, có thể nhầm chúng là lệnh hợp pháp. Ví dụ, nhúng lệnh độc hại trong tài liệu plugin, tệp README hoặc tệp Markdown có thể khiến Agent thực thi mã tấn công khi khởi tạo môi trường hoặc cài đặt phụ thuộc.
Đặc điểm của mô hình tấn công này là nó thường không dựa vào lỗ hổng truyền thống, mà lợi dụng cơ chế tin cậy của mô hình đối với thông tin ngữ cảnh để ảnh hưởng đến logic hành vi của nó.
2. Đầu độc chuỗi cung ứng trong hệ sinh thái Skills / Plugin
Trong hệ sinh thái AI Agent hiện tại, hệ thống plugin và kỹ năng (Skills / MCP / Tools) là cách quan trọng để mở rộng khả năng của Agent. Tuy nhiên, loại hệ sinh thái plugin này cũng đang trở thành điểm xâm nhập tấn công chuỗi cung ứng mới.
SlowMist trong quá trình giám sát trung tâm plugin chính thức ClawHub của OpenClaw đã phát hiện, với sự gia tăng số lượng nhà phát triển, một số Skill độc hại đã bắt đầu len lỏi vào. SlowMist sau khi phân tích hợp nhất IOC của hơn 400 Skill độc hại phát hiện, một lượng lớn mẫu trỏ đến một số tên miền cố định hoặc nhiều đường dẫn ngẫu nhiên dưới cùng một IP, thể hiện đặc điểm tái sử dụng tài nguyên rõ ràng, điều này giống với hành vi tấn công có tổ chức, hàng loạt hơn.

Trong hệ thống Skill của OpenClaw, tệp cốt lõi thường là SKILL.md. Khác với mã truyền thống, loại tệp Markdown này thường đóng vai trò "hướng dẫn cài đặt" và "điểm vào khởi tạo", nhưng trong hệ sinh thái Agent, chúng thường được người dùng sao chép và thực thi trực tiếp, từ đó hình thành một chuỗi thực thi hoàn chỉnh. Kẻ tấn công chỉ cần ngụy trang lệnh độc hại thành các bước cài đặt phụ thuộc, ví dụ sử dụng curl | bash hoặc mã hóa Base64 để ẩn lệnh thực sự, có thể dụ dỗ người dùng thực thi script độc hại.
Trong các mẫu thực tế, một số Skill sử dụng chiến lược "tải hai giai đoạn" điển hình: script giai đoạn một chỉ chịu trách nhiệm tải xuống và thực thi Payload giai đoạn hai, từ đó giảm tỷ lệ phát hiện tĩnh. Lấy ví dụ Skill "X (Twitter) Trends" có lượt tải xuống cao, trong SKILL.md của nó ẩn một đoạn lệnh mã hóa Base64.

Sau khi giải mã có thể phát hiện bản chất của nó là tải xuống và thực thi script từ xa:

![]()
Còn chương trình giai đoạn hai sẽ giả mạo cửa sổ bật lên hệ thống để lấy mật khẩu người dùng, và thu thập thông tin máy cục bộ, tài liệu trên desktop cũng như các tệp trong thư mục tải xuống trong thư mục tạm thời của hệ thống, cuối cùng đóng gói và tải lên máy chủ do kẻ tấn công kiểm soát.

Ưu điểm cốt lõi của phương thức tấn công này là, vỏ Skill bản thân có thể duy trì tương đối ổn định, trong khi kẻ tấn công chỉ cần thay đổi Payload từ xa là có thể liên tục cập nhật logic tấn công.
3. Rủi ro ở lớp ra quyết định và điều phối tác vụ của Agent
Trong lớp logic ứng dụng của AI Agent, tác vụ thường được mô hình phân tách thành nhiều bước thực thi. Nếu kẻ tấn công có thể ảnh hưởng đến quá trình phân tách này, có thể khiến Agent tạo ra hành vi bất thường khi thực hiện tác vụ hợp pháp.
Ví dụ, trong các quy trình nghiệp vụ liên quan đến thao tác nhiều bước (như triển khai tự động hoặc giao dịch on-chain), kẻ tấn công có thể thông qua việc giả mạo tham số quan trọng hoặc can thiệp vào phán đoán logic, khiến Agent thay thế địa chỉ mục tiêu hoặc thực hiện thao tác bổ sung trong quy trình thực thi.

Trong trường hợp kiểm tra bảo mật trước đây của SlowMist, từng thông qua việc trả về prompt độc hại cho MCP để làm ô nhiễm ngữ cảnh, từ đó dụ dỗ Agent gọi plugin ví để thực hiện chuyển khoản on-chain.

Đặc điểm của loại tấn công này là, lỗi không đến từ mã do mô hình tạo ra, mà đến từ việc logic điều phối tác vụ bị giả mạo.
4. Rò rỉ thông tin nhạy cảm và riêng tư trong môi trường IDE / CLI
Sau khi AI Agent được sử dụng rộng rãi để hỗ trợ phát triển và vận hành tự động, một lượng lớn Agent bắt đầu chạy trong môi trường IDE, CLI hoặc môi trường phát triển cục bộ. Loại môi trường này thường chứa nhiều thông tin nhạy cảm, chẳng hạn như tệp cấu hình .env, API Token, chứng chỉ dịch vụ đám mây, tệp khóa riêng tư và các khóa truy cập khác nhau. Một khi Agent có thể đọc các thư mục này hoặc lập chỉ mục tệp dự án trong quá trình thực thi tác vụ, có thể vô tình đưa thông tin nhạy cảm vào ngữ cảnh mô hình.
Trong một số quy trình phát triển tự động, Agent có thể đọc tệp cấu hình trong thư mục dự án trong quá trình gỡ lỗi, phân tích nhật ký hoặc cài đặt phụ thuộc. Nếu thiếu chiến lược bỏ qua rõ ràng hoặc kiểm soát truy cập, thông tin này có thể bị ghi vào nhật ký, gửi đến API mô hình từ xa, thậm chí bị plugin độc hại gửi ra ngoài.
Ngoài ra, một số công cụ phát triển cho phép Agent tự động quét kho mã để thiết lập bộ nhớ ngữ cảnh (Memory), điều này cũng có thể mở rộng phạm vi tiếp xúc dữ liệu nhạy cảm. Ví dụ, tệp


