Hướng dẫn Hermes Agent: Vượt qua OpenClaw, Tăng năng suất lên 100 lần

区块律动BlockBeats

特邀专栏作者

2026-04-13 13:00

Bài viết này có khoảng 3841 từ, đọc toàn bộ bài viết mất khoảng 6 phút

Dùng càng lâu càng thông minh, điều gì đặc biệt ở Hermes khiến các nhà phát triển đều di chuyển sang?

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Hermes Agent là một tác nhân AI mã nguồn mở với khả năng tự tiến hóa, được phát triển bởi Nous Research. Lợi thế cốt lõi của nó nằm ở cơ chế vòng lặp học tập tích hợp, cho phép tự động tạo và cải thiện kỹ năng từ kinh nghiệm sử dụng, đạt được "càng dùng càng thông minh". Trong bối cảnh đối thủ OpenClaw gặp trở ngại về vấn đề an ninh, Hermes nhanh chóng thu hút sự chú ý của cộng đồng.
Yếu tố then chốt:
1. **Cơ chế cốt lõi:** Hệ thống bộ nhớ (MEMORY.md/USER.md) và hệ thống kỹ năng (tự động tạo tài liệu kỹ năng có cấu trúc) tạo nền tảng cho sự tự tiến hóa, cho phép Agent ghi nhớ ngữ cảnh và tái sử dụng kinh nghiệm.
2. **Công cụ và hệ sinh thái:** Tích hợp sẵn hơn 40 loại công cụ và sở hữu hệ sinh thái cộng đồng sôi động, như các thành phần phổ biến: Hindsight (plugin bộ nhớ), Anthropic-Cybersecurity-Skills (bộ kỹ năng an ninh) và mission-control (bảng điều khiển điều phối).
3. **Triết lý kiến trúc:** Khác với thiết kế "mặt phẳng điều khiển trung tâm" của đối thủ OpenClaw, Hermes lấy vòng lặp thực thi của chính Agent làm trung tâm, nhấn mạnh việc xây dựng khả năng học tập tự chủ phi tập trung xoay quanh "làm, học, cải tiến".
4. **Cơ hội tăng trưởng:** Sau khi OpenClaw bị phát hiện có nhiều lỗ hổng bảo mật (138 CVE trong 63 ngày), Hermes đã thu hút các nhà phát triển tìm kiếm giải pháp thay thế nhờ công cụ di chuyển một cú nhấp chuột, số sao GitHub nhanh chóng tăng lên gần 70,000.
5. **Triển khai linh hoạt:** Hỗ trợ nhiều phương thức triển khai, bao gồm cục bộ, Docker, SSH và các nền tảng không máy chủ chi phí thấp (như Daytona, Modal), khả năng thích ứng rộng rãi.

Vào ngày 25 tháng 2, một nhóm có tên Nous Research đã âm thầm đẩy phiên bản v0.1.0 lên GitHub. Ban đầu, mô hình Hermes này chỉ có một dòng lệnh cài đặt và một câu định vị sản phẩm: "An agent that grows with you".

Lúc đó, rất ít người chú ý đến nó, ngay cả khi Nous Research có một số danh tiếng trong cộng đồng mô hình, và series mô hình Hermes của họ đã tích lũy được 33 triệu lượt tải trên HuggingFace. Tuy nhiên, sự chú ý của toàn bộ cộng đồng nhà phát triển đều đổ dồn vào OpenClaw "Crayfish" được tôn sùng như một vị thần. Vượt qua React để trở thành số một lịch sử chỉ trong 33 ngày, "Crayfish" đã trở thành dự án tăng sao nhanh nhất từ trước đến nay trên GitHub, với đỉnh điểm là 710 sao mỗi giờ. Nhưng ngay lúc đó, các nhà nghiên cứu bảo mật đã liên tục tiết lộ các lỗ hổng trong cùng khung thời gian, với tốc độ trung bình 2.2 CVE mỗi ngày, tích lũy 138 lỗ hổng bảo mật trong 63 ngày. Toàn bộ cộng đồng bắt đầu suy nghĩ lại một câu hỏi: Thứ này cuối cùng có thể được sử dụng trong môi trường sản xuất hay không?

Trong bối cảnh như vậy, Hermes Agent, một đối thủ cạnh tranh, cuối cùng cũng có cơ hội và đón nhận giai đoạn tăng trưởng nhanh đầu tiên của mình.

Hermes đã viết một công cụ di chuyển một cú nhấp chuột từ OpenClaw vào mã của mình. Những nhà phát triển rời bỏ OpenClaw đó cần một nơi để dừng chân, và Hermes Agent đã trở thành một lựa chọn tốt được truyền miệng.

Vì vậy, từ đầu tháng 3, Hermes Agent đã lọt vào GitHub Trending, cao nhất đạt vị trí thứ 11, với số sao vượt quá 2200. AwesomeAgents gọi nó là "Bản phát hành Agent mã nguồn mở đầy tham vọng nhất năm 2026 cho đến nay". Hiện tại, Hermes trên GitHub có 69.9k Star và 9k Fork.

Hôm nay, BlockBeats sẽ cùng mọi người thảo luận xem Agent này có gì khác biệt.

Hermes Agent là gì?

Hermes Agent là một tác nhân AI tự phát triển được xây dựng bởi Nous Research, và cũng là Agent duy nhất hiện có tích hợp vòng lặp học tập.

Nó có thể tự động tạo kỹ năng từ kinh nghiệm sử dụng, liên tục cải thiện các kỹ năng này trong quá trình sử dụng, chủ động củng cố kiến thức thành tài sản có thể tái sử dụng, truy xuất lịch sử hội thoại trong quá khứ của chính nó, và liên tục đào sâu hiểu biết về người dùng bạn qua nhiều phiên hội thoại.

Vì vậy, nói một cách đơn giản, ưu điểm lớn nhất của Hermes Agent là: Càng dùng càng thông minh, càng dùng càng thuận tay.

Định vị của nó không phải là trợ lý lập trình gắn trong IDE, cũng không phải là lớp bao bọc trò chuyện cho một API đơn lẻ nào đó, mà là một Agent tự chủ thực sự cư trú trên máy chủ của bạn, có thể ghi nhớ những gì nó đã học, và chạy càng lâu thì khả năng càng mạnh.

Ngay từ đầu, Nous Research đã định vị mình là một phòng thí nghiệm AI theo hướng ưu tiên mã nguồn mở và phi tập trung, với mục tiêu xây dựng AI mà người dùng có thể tự kiểm soát, thay vì tập trung trí tuệ vào tay một số ít công ty khép kín. Công việc ban đầu của họ tập trung vào series mô hình Hermes, đồng thời đầu tư mạnh vào cơ sở hạ tầng và cấp độ hệ thống, cũng như khám phá công nghệ DisTrO để huấn luyện mô hình trên các GPU cấp tiêu dùng phân tán toàn cầu, và các môi trường mô phỏng như WorldSim, Doomscroll cho tương tác đa tác nhân và hành vi dài hạn.

Đội ngũ đằng sau Hermes Agent này cũng chính là những người đã tạo ra một loạt mô hình như Nomos, Psyche.

Công cụ hữu ích nào có sẵn?

Cơ chế cốt lõi nhất của Hermes Agent là hệ thống bộ nhớ và hệ thống kỹ năng của nó. Agent duy trì hai tệp cốt lõi được tinh giản: MEMORY.md lưu trữ thông tin môi trường, thỏa thuận và kinh nghiệm tổng kết từ các nhiệm vụ trước đây; USER.md lưu trữ sở thích và phong cách giao tiếp của bạn. Hai tệp này được tự động đưa vào gợi ý hệ thống khi bắt đầu mỗi phiên hội thoại, tương đương với "bộ nhớ làm việc dài hạn" của Agent. Ngoài ra, tất cả lịch sử hội thoại đều được lưu vào cơ sở dữ liệu tìm kiếm toàn văn SQLite, cho phép Agent truy xuất nội dung hội thoại từ nhiều tuần trước.

Về hệ thống kỹ năng, mỗi khi hoàn thành một nhiệm vụ phức tạp (thường là hơn 5 lần gọi công cụ), Agent sẽ tự chủ tạo ra một tài liệu Markdown có cấu trúc "kỹ năng", ghi lại các bước thao tác, nội dung đã biết và phương thức xác minh, để tái sử dụng trong tương lai. Các tệp kỹ năng tuân theo mô hình tiết lộ dần dần: Theo mặc định, Agent chỉ xem tên và mô tả kỹ năng (khoảng 3000 token), và chỉ tải toàn bộ nội dung của một kỹ năng cụ thể khi cần, nhằm kiểm soát mức tiêu thụ token.

Ở cấp độ công cụ, Hermes Agent tích hợp sẵn hơn 40 loại công cụ, bao gồm tìm kiếm web, tự động hóa trình duyệt, hiểu hình ảnh, tạo hình ảnh, chuyển văn bản thành giọng nói, và còn hỗ trợ thiết lập nhiệm vụ định kỳ bằng ngôn ngữ tự nhiên, cho phép Agent tự động thực hiện các công việc tuần hoàn như tạo báo cáo, sao lưu dữ liệu, giám sát hệ thống trong tình trạng không có người trực.

Trong số đó, công cụ được ưa chuộng nhất, tức là những công cụ có tần suất sử dụng thực tế cao nhất trong cộng đồng người dùng, nhận được nhiều phản hồi nhất, và dựa trên kiến trúc chức năng của Hermes cũng như nhu cầu điển hình của cộng đồng nhà phát triển, những công cụ đứng đầu là:

Hindsight hiện là công cụ đơn lẻ nổi nhất trong hệ sinh thái, là plugin bộ nhớ dài hạn được Hermes chính thức đề xuất. Nó tự động gọi lại ngữ cảnh liên quan trước mỗi lần gọi LLM, hỗ trợ triển khai cục bộ PostgreSQL hoặc trên đám mây, và đã được tích hợp như một Memory Provider gốc vào Hermes.

Anthropic-Cybersecurity-Skills là gói kỹ năng có số sao cao nhất trong hệ sinh thái, chứa hơn 753 kỹ năng an ninh mạng có cấu trúc, ánh xạ đầy đủ khung MITRE ATT&CK, phù hợp cho các kịch bản nghiên cứu bảo mật và kiểm thử thâm nhập.

mission-control hiện là bảng điều khiển sắp xếp Agent phổ biến nhất trong hệ sinh thái, hỗ trợ quản lý hạm đội Agent, phân phối nhiệm vụ, theo dõi chi phí và quy trình làm việc hợp tác đa Agent, được cộng đồng đề xuất là tiêu chuẩn cho triển khai cấp sản xuất.

Hermes Agent Self-Evolution là một kỹ thuật tự cải tiến tiến hóa, sử dụng DSPy + GEPA để tối ưu hóa kỹ năng, lời nhắc và mã.

Hermes Workspace là không gian làm việc gốc của Hermes, tích hợp giao diện trò chuyện, terminal và trình quản lý kỹ năng, là điểm vào đồ họa được ưa chuộng nhất.

Ngoài ra, nó còn có thể tạo ra các Agent con độc lập, mỗi Agent con có ngữ cảnh hội thoại riêng, terminal độc lập và tập lệnh Python RPC, từ đó đạt được đường ống song song với chi phí ngữ cảnh bằng không.

Về tính linh hoạt của cơ sở hạ tầng, nó hỗ trợ sáu backend terminal: chạy cục bộ, Docker, SSH từ xa, Daytona không máy chủ, container Singularity và hàm đám mây Modal. Daytona và Modal sẽ ngủ đông khi nhàn rỗi, chi phí gần như bằng không. Bạn có thể chạy nó trên VPS 5 đô la hoặc cụm GPU, đưa ra chỉ thị qua Telegram, và để nó làm việc trên máy chủ đám mây mà bạn không bao giờ trực tiếp SSH vào.

Hermes Agent hiện đang cạnh tranh trực tiếp nhất với OpenClaw, cả hai đều là khung Agent mã nguồn mở hướng đến nhà phát triển.

Triết lý kiến trúc của hai bên hoàn toàn khác nhau: Thiết kế cốt lõi của OpenClaw là một "mặt phẳng điều khiển", một tiến trình chạy dài hạn thống nhất, chịu trách nhiệm quản lý phiên hội thoại, định tuyến, thực thi công cụ và trạng thái, mọi thứ đều chảy qua bộ điều khiển trung tâm này. Hermes lấy vòng lặp thực thi của chính Agent làm trung tâm, xây dựng cổng kết nối, bộ lập lịch định kỳ, thời gian chạy công cụ, v.v. xung quanh vòng lặp lặp đi lặp lại "làm, học, cải thiện" này.

Sự khác biệt đặc biệt rõ ràng trong hệ thống kỹ năng: Hầu hết kỹ năng của OpenClaw được viết thủ công, được tải từ các cấp độ khác nhau như workspace, personal, shared hoặc plugin; Cách tiếp cận của Hermes là để Agent tự tạo kỹ năng từ kinh nghiệm, hình thành vòng lặp học tập tự chủ thực sự.

Cách cài đặt và sử dụng

Rất dễ bắt đầu. Một dòng lệnh "curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash" là có thể hoàn tất cài đặt, hỗ trợ Linux, macOS và WSL2. Hermes Agent sẽ tự động hoàn thành tất cả cấu hình, không cần thao tác thủ công.

Trang web chính thức của Hermes

Sau khi cài đặt Hermes Agent xong, chạy "hermes setup" để khởi động trình hướng dẫn, chọn nhà cung cấp mô hình của bạn (hỗ trợ Nous Portal, OpenRouter, OpenAI hoặc bất kỳ điểm cuối tùy chỉnh nào), kết nối nền tảng nhắn tin của bạn (Telegram, Discord, Slack hoặc WhatsApp), và sau đó bắt đầu cuộc trò chuyện đầu tiên. Ngay từ lần tương tác đầu tiên, Hermes Agent lập tức bước vào chế độ học tập, bắt đầu xây dựng bộ nhớ, tạo kỹ năng, và trở nên có năng lực hơn sau mỗi phiên hội thoại.

Các lệnh cốt lõi cho việc sử dụng hàng ngày bao gồm:

hermes (bắt đầu hội thoại),

hermes model (chọn nhà cung cấp và mô hình LLM),

hermes tools (cấu hình công cụ nào được bật),

hermes gateway (khởi động cổng kết nối tin nhắn, kết nối với các nền tảng như Telegram, Discord),

hermes setup (chạy trình hướng dẫn thiết lập đầy đủ, cấu hình tất cả mọi thứ một lần),

hermes claw migrate (di chuyển từ OpenClaw),

hermes update (cập nhật lên phiên bản mới nhất),

hermes doctor (chẩn đoán sự cố);

Các kịch bản phù hợp với Hermes Agent bao gồm: Trợ lý AI chung cần ghi nhớ ngữ cảnh xuyên phiên và liên tục cải thiện khả năng; Quy trình làm việc Agent tùy chỉnh cần kết hợp sử dụng công cụ, plugin, máy chủ MCP, trình duyệt hoặc Shell; Triển khai Agent trên phần cứng cục bộ, máy ảo đám mây hoặc cơ sở hạ tầng không máy chủ chi phí thấp; Và các kịch bản trợ lý lâu dài cần duy trì lịch sử hội thoại có thể tìm kiếm và kỹ năng đã học được trên nhiều nền tảng.

Cụ thể hơn,

công nghệ

Chào mừng tham gia cộng đồng chính thức của Odaily