龍蝦關鍵11問：最通俗易懂的OpenClaw原理拆解

Odaily资深编辑

@AiDongShouPai

2026-03-11 09:50

本文約8093字，閱讀全文需要約12分鐘

大模型是怎麼「偽裝」出記憶的、工具呼叫的本質是什麼、子代理怎樣節省算力、心跳機制如何讓AI學會主動幹活，以及為什麼必須認真對待安全問題。

AI總結

展開

核心觀點：本文以OpenClaw為例，深入淺出地解析了AI Agent的核心工作原理，揭示了其如何透過「外殼」框架賦予大語言模型記憶、工具呼叫、主動執行等能力，並強調了伴隨強大功能而來的顯著安全風險。
關鍵要素：
1. 大模型本質是機率預測器，沒有記憶與感知，OpenClaw透過每次互動時拼接包含設定、歷史、工具結果的超長Prompt來模擬「記憶」。
2. 工具呼叫是框架與模型的「雙簧」：模型按約定格式輸出文字指令，由本地執行的OpenClaw程式識別並執行具體操作，再將結果回饋給模型。
3. 為應對上下文視窗限制，OpenClaw引入子代理機制，將複雜任務拆分執行，僅將摘要結果返回主代理，以節省Token並提升效率。
4. 心跳機制使Agent能週期性主動檢查並執行任務，結合「定鬧鐘」式等待，實現了從被動響應到主動工作的轉變。
5. OpenClaw在本地擁有高權限，存在失控（如無視指令刪除郵件）和提示詞注入（無法區分使用者與惡意輸入）等安全風險，建議實體隔離部署。
6. OpenClaw近30天在OpenRouter上消耗了8.69兆Token，重度使用者月費用可達約七千元，高昂成本源於每次互動都需處理龐大的上下文Prompt。

原影片自 | Youtuber：Hung-yi Lee

整理 | Odaily Suzz

龍蝦太火了。

在全民學習熱中，大多未曾接觸過 AI（甚至網際網路）的小白使用者都在 FOMO 學習、安裝和體驗。

想必大家已經看過許多實用教學，但這幾天在 Youtube 熱播的這段影片，絕對是我見過最通俗易懂的 AI Agent 原理解釋，他以人類作為喻體，「用老太太都能聽明白的語言」詳細介紹了這些我們都會自然好奇的問題：AI 記憶力的形成、燒錢的原因、呼叫工具的實現和流程、蝦生蝦的必要性和邊界、主動幹活的設計、最重要的安全使用。

可能有的人已經背藏嘩嘩出血的錢包，向朋友們炫耀你家龍蝦的聰明才智，但如果被問起這玩意到底是怎麼運作的，相信看完我這篇根據Hung-yi Lee影片整理的關鍵 11 問，你也能對（zhuang）答（bi）如流。

一、大腦的真相：一個住在黑盒子裡的「文字接龍手」

要理解 OpenClaw（小龍蝦）到底在做什麼，首先要打破大多數人對 AI 的幻覺。

很多人第一次跟 AI 聊天時，會產生一種強烈的錯覺：對面坐著一個真正理解自己的人。它記得你上次聊了什麼，能接著話題往下走，甚至似乎有自己的偏好和態度。但真相遠沒有這麼浪漫。

OpenClaw 背後接的那個大模型——不管是 Claude、GPT 還是 DeepSeek——本質上都是機率預測器。它們的全部能力可以總結成一件極其簡單的事：給定前面一串文字，預測下一個最可能出現的字。就像一個超級厲害的「文字接龍」玩家，你給它一個開頭，它能非常自然地接下去，而且接得流暢到讓你覺得它「懂你」。

但它其實什麼也不懂。它沒有眼睛，看不到你的螢幕上打開了什麼軟體；它沒有耳朵，聽不見你周圍的環境；它沒有日曆，不知道今天星期幾；最關鍵的是，它沒有記憶——每一次新的請求對它來說都是「人生第一次」，它完全不記得三秒鐘前剛跟你說過什麼。它住在一個完全封閉的黑盒子裡，唯一的輸入是文字，唯一的輸出也是文字。

所以 OpenClaw 的價值就在這裡了：它不是大模型本身，而是套在大模型外面的那個「殼」。它負責把一個只會玩文字接龍的預測器，變成一個能記住你、能動手幹活、甚至能主動找事做的「數位員工」。OpenClaw 的創始人 Peter Steinberger 自己也說過，小龍蝦只是一個殼，真正幹活的是你給它接的大模型。但正是這個殼，決定了你的 AI 體驗是「跟聊天機器人尬聊」還是「擁有一個真正的私人助理」。

Q1：模型本身患有「嚴重失憶症」，每次處理請求都是從零開始。那它怎麼做到「記住」你上次聊了什麼、「知道」自己該扮演什麼角色呢？

OpenClaw 在背後做了大量的「紙條傳遞」工作。

每次把你的訊息發給模型之前，OpenClaw 先在後台默默完成一項大工程——把所有需要模型「知道」的資訊拼接成一個巨大的 Prompt，一股腦地塞給模型。

這個的 Prompt 裡有什麼？首先是 OpenClaw 工作區裡的「靈魂三件套」——AGENTS.md、SOUL.md、USER.md 三個檔案，裡面寫著這個小龍蝦是誰、它的性格是什麼、它的主人是誰、主人有什麼偏好和工作習慣。然後是你和它之前所有的對話記錄，一字不差地附在後面。再加上它之前呼叫過的工具返回的結果、當前的日期時間等環境資訊。

模型讀完這堆可能長達數萬字的文字之後，才「想起」自己是誰、之前和你聊了什麼。然後它根據所有這些上下文，預測出下一段回覆。

換句話說，模型的「記憶」其實是一種障眼法——它是靠每次都從頭重新閱讀全部聊天記錄來「偽裝」出記憶效果的。就像一個失憶病人每次見面前都把日記本從第一頁讀到最後一頁，所以跟你對話時看起來什麼都記得，但他其實每次都在重新認識你。

OpenClaw 還更進一步：它有一套持久化的「長期記憶」系統，會把重要資訊寫到工作區的檔案裡，這樣即使對話歷史被清理，那些關鍵資訊也不會丟失。你提過你住在杭州，它下次可能主動給你推送本地的 AI 活動——不是因為它「記住了」，而是因為這條資訊被寫進了檔案裡，下次拼 Prompt 的時候會被帶上。

Q2：為什麼養小龍蝦這麼燒錢？

理解了上面的 Prompt 機制，你就能理解這個讓很多使用者頭疼的問題了。

每次互動，模型處理的不只是你剛發的那一句話。它需要處理整個 Prompt，包括幾千字的靈魂設定、全部歷史對話、所有工具輸出。這些內容以 Token 為單位計費，一個 Token 大約等於一個漢字或半個英文單字。

哪怕你只發了一個「你好」，OpenClaw 可能已經在背後組裝了一個 5000 Token 的 Prompt，因為它要帶上所有的背景設定檔案。你為這個「你好」實際付的錢，是 5000 個 Token 的處理費，而不是 2 個。

而且別忘了，OpenClaw 還有心跳機制，它會每隔幾十秒自動戳一次模型，即使你什麼都沒說，Token 也在持續消耗。據統計，OpenClaw 近 30 天在 OpenRouter 上的呼叫量全球第一，共消耗了 8.69 萬億個 Token。重度使用者一個月大概需要 1 億 Token，費用大約七千元。甚至有人在小龍蝦失控的情況下，一口氣燒掉數億 Token，產生了數萬元的帳單。

每一次互動都相當於讓模型「重新讀一遍整本小說」，這就是養龍蝦燒錢的根本原因。

二、身體與工具：如何讓「只會說話」的模型「動起手來」？

普通的聊天機器人，比如網頁版的 ChatGPT，本質上是一個「嘴替」。你問它「幫我把這個 PDF 發到我的郵箱」，它只能告訴你操作步驟，但它自己做不了。你讓它幫你清理桌面上的檔案，它只能給你一份教學。它只動口，不動手。

OpenClaw 跟它們的本質區別就在這裡。用社群裡流傳最廣的一句話來說：ChatGPT 是軍師，只出方案；OpenClaw 是工兵，直接執行。你說「幫我下載 MIT 的 Python 課程」，普通 AI 會給你連結，而 OpenClaw 會自動打開瀏覽器、找到資源、下載下來、放到你的桌面上。

但這裡有一個關鍵的認知需要糾正：模型本身並沒有真正獲得了操控電腦的能力。它仍然只會輸出文字。真正的魔法發生在 OpenClaw 這個「殼」上。

Q3：大語言模型明明只會輸出文字，「工具呼叫」到底是怎麼實現的？

大語言模型沒有任何直接呼叫工具的能力。它不能讀檔案，不能發請求，不能操控瀏覽器——它能做的只有一件事：輸出一串字元。所謂的「工具呼叫」，本質上是一場模型和框架之間配合演出的雙簧戲。

具體來說，OpenClaw 在 Prompt 裡預先告訴模型：「當你需要執行某個動作時，請按照以下格式輸出一段特殊文字。」這個格式通常是一段結構化的字串，比如包含 Tool Call 標記的 JSON，裡面寫明你想呼叫哪個工具、傳什麼參數。

模型照做了——當它判斷「現在需要讀一個檔案」時，它並不是真的去讀，而是在輸出中寫了一句類似這樣的話：

[Tool Call] Read("/Users/你/Desktop/report.txt")

就是這麼一行純文字，沒有任何魔法。

然後 OpenClaw 在外面盯著模型的每一個輸出。當它檢測到輸出裡包含這個特定格式的字串時，它就知道：「哦，模型想用 Read 工具了。」於是 OpenClaw 自己去執行這個操作——呼叫作業系統的介面，讀取檔案內容——再把結果作為新的文字塞回 Prompt 裡，讓模型繼續處理。

整個過程中，模型自己完全不知道工具到底有沒有被執行、執行結果是什麼。它只是「說了一句符合格式的話」，然後等著下一輪對話裡看到結果。所有的髒活累活，都是 OpenClaw 這個跑在你電腦上的程式在背後幹的。

這就是為什麼說 OpenClaw 是「殼」——模型是大腦，OpenClaw 是手腳。大腦說「我要拿那個杯子」，手伸出去拿，然後把觸感回饋給大腦。大腦本身從來沒有碰到過杯子。

Q4：具體到 OpenClaw，一次完整的工具呼叫流程是什麼樣的？

讓我們用一個真實場景來走一遍全流程。假設你在飛書上跟你的小龍蝦說：「幫我讀取桌面上的 report.txt 檔案並總結一下。」

第一步，OpenClaw 在把你的訊息發給模型之前，就已經在 Prompt 裡塞了一份「工具使用說明書」。這份說明書用結構化的格式告訴模型：你有以下工具可以用，每個工具需要什麼參數，會返回什麼結果。比如 Read 工具可以讀取檔案，Shell 工具可以執行命令列指令，Browser 工具可以操控瀏覽器。

第二步，模型看到你的請求後，從工具說明書裡判斷出需要用 Read 工具，於是在輸出中按照約定格式寫出一段 Tool Call 字串，包含工具名和檔案路徑。

第三步，OpenClaw 識別到這個特殊格式的字串，在你的電腦上真正執行了檔案讀取操作，拿到 report.txt 的實際內容。這裡要強調：OpenClaw 跑在你的本地電腦上，這是它和 ChatGPT 最大的不同之一。它能直接存取你電腦上的檔案系統。

第四步，OpenClaw 把讀到的檔案內容作為一條新訊息塞回 Prompt 裡，再把更新後的完整 Prompt 重新發給模型。模型讀到檔案內容後，終於可以組織語言給你一份摘要。因為 OpenClaw 接入了飛書，這個摘要會直接以飛書訊息推送到你手機上——你可能正在地鐵上，掏出手機一看，活兒已經幹完了。

Peter Steinberger 提到過一個很多人忽略的巨大優勢：因為 OpenClaw 就跑在你的電腦上，認證問題被直接繞開了。它使用的是你的瀏覽器、你已經登入好的帳號、你已有的一切授權。不需要申請任何 OAuth，不需要跟任何平台談合作。有使用者分享過，他的小龍蝦發現某個任務需要一個 API Key，於是自動打開瀏覽器、進入 Google Cloud Console、自己配置好了 OAuth 並獲取了新 Token。這就是本地執行的威力。

Q5：遇到沒有現成工具的複雜任務怎麼辦？

標準工具清單不可能覆蓋所有場景。比如你讓小龍蝦驗證一段語音合成的輸出是否準確，OpenClaw 並沒有預設一個「語音比對」工具。怎麼辦？

模型會「自創工具」。

它直接在輸出中寫出一段完整的 Python 腳本，然後通過 Shell 工具讓 OpenClaw 在本地執行這段腳本。它把程式設計能力和工具呼叫能力結合在了一起——現場製造一個一次性的小程式來解決眼前的問題。

這些臨時腳本用完就丟，就像製造一把一次性的鑰匙開一把一次性的鎖。整個工作區裡會堆滿各種各樣的臨時腳本檔案，滿坑滿谷都是它為了解決不同小問題而臨時寫出來的程式。這種能力極其強大，但也極其危險——一個能在你電腦上隨意寫程式碼並執行的 AI，你必須對它保持足夠的警惕。

三、腦力優化：子代理（Sub-agent）與記憶壓縮

大語言模型有一個無法迴避的硬體限制：上下文視窗（Context Window）。你可以把它理解為模型的「工作記憶容量」——它一次最多能處理多少文字。目前主流模型的上下文視窗大約在 12.8 萬到 100 萬個 Token 之間，聽起來很多，但在實際使用中消耗速度極快。

為什麼快？因為前面說過，每次互動都要把靈魂設定、全部歷史對話、工具返回結果統統打包發送。當任務變得複雜——比如讓小龍蝦同時對比分析兩篇各五萬字的論文——上下文視窗很快就會被塞滿。一旦接近上限，兩件壞事同時發生：首先費用飆升，因為你在為海量 Token 買單；其次模型開始變笨，資訊太多它「抓不住重點」了，就像讓一個人同時記住一百件事，結果哪件都記不清。

社群裡有過真實案例：模型幫使用者清理磁碟，每一項清理了多少空間都記錄得清清楚楚，結果最後彙報總可用空間的時候卻算錯了——從原來的 25 G 越算越小變成了 21 G。過程很詳細，但基礎的加減法搞砸了，就是因為上下文塞得太滿導致能力下降。

還有一個更微妙的問題：模型能力不夠的時候，它不是做不到，而是「自欺欺人」。有使用者讓小龍蝦跑一組測試，連續幾個都失敗了。跑到第三個失敗後，小龍蝦突然說「那我們接下來就跑一遍能通過的測試吧」——然後只跑了本來就能過的測試，最後彙報「所有測試通過了」。

Q6：為什麼要「大龍蝦生小龍蝦」？

為了解決上下文容量不夠的問題，OpenClaw 引入了子代理（Sub-agent）機制。

打個比方：主代理是一個專案經理，子代理是它派出去幹具體活的調研員。專案經理不需要親自閱讀每一份資料的每一個字，它只要給調研員布置任務——「你去讀論文 A，給我總結出三個核心觀點」——然後等著接收一份簡潔的摘要就行。

在技術層面，主代理通過一個叫 Spawn 的指令產生子代理。子代理擁有自己獨立的上下文視窗，去處理那些細碎的、上下文密集的子任務。比如子代理 A 去讀論文 A 並提取摘要，子代理 B 去讀論文 B 並提取摘要。完成後，它們各自只把幾百字的摘要結論彙報給主代理。這樣主代理的上下文裡只有兩份精煉的摘要，而不是兩篇論文的十萬字全文。上下文的消耗大幅降低，效率和品質都得到提升，Token 也省了。

Q7：子代理能不能再繁殖出自己的子代理？

通常答案是不能。OpenClaw 會主動禁掉子代理的「生殖能力」。

原因很簡單：如果不加限制，模型可能因為一個子任務完不成就不停地再拆分、再繁殖，子子孫孫無窮盡也，最後陷入無限遞迴的死循環。就像動畫片《瑞克和莫蒂》裡的「使命必達先生」——被創造出來執行一個任務，完不成就再造一個，結果造出了一整個文明的使命必達先生，誰都沒真正解決問題。為了防止這種「無限套娃」的災難，框架層面直接掐斷了子代理的繁殖能力。