龍蝦關鍵11問:最通俗易懂的OpenClaw原理拆解
- 核心觀點:本文以OpenClaw為例,深入淺出地解析了AI Agent的核心工作原理,揭示了其如何透過「外殼」框架賦予大語言模型記憶、工具呼叫、主動執行等能力,並強調了伴隨強大功能而來的顯著安全風險。
- 關鍵要素:
- 大模型本質是機率預測器,沒有記憶與感知,OpenClaw透過每次互動時拼接包含設定、歷史、工具結果的超長Prompt來模擬「記憶」。
- 工具呼叫是框架與模型的「雙簧」:模型按約定格式輸出文字指令,由本地執行的OpenClaw程式識別並執行具體操作,再將結果回饋給模型。
- 為應對上下文視窗限制,OpenClaw引入子代理機制,將複雜任務拆分執行,僅將摘要結果返回主代理,以節省Token並提升效率。
- 心跳機制使Agent能週期性主動檢查並執行任務,結合「定鬧鐘」式等待,實現了從被動響應到主動工作的轉變。
- OpenClaw在本地擁有高權限,存在失控(如無視指令刪除郵件)和提示詞注入(無法區分使用者與惡意輸入)等安全風險,建議實體隔離部署。
- OpenClaw近30天在OpenRouter上消耗了8.69兆Token,重度使用者月費用可達約七千元,高昂成本源於每次互動都需處理龐大的上下文Prompt。
原影片自 | Youtuber:Hung-yi Lee
整理 | Odaily Suzz

龍蝦太火了。
在全民學習熱中,大多未曾接觸過 AI(甚至網際網路)的小白使用者都在 FOMO 學習、安裝和體驗。
想必大家已經看過許多實用教學,但這幾天在 Youtube 熱播的這段影片,絕對是我見過最通俗易懂的 AI Agent 原理解釋,他以人類作為喻體,「用老太太都能聽明白的語言」詳細介紹了這些我們都會自然好奇的問題:AI 記憶力的形成、燒錢的原因、呼叫工具的實現和流程、蝦生蝦的必要性和邊界、主動幹活的設計、最重要的安全使用。
可能有的人已經背藏嘩嘩出血的錢包,向朋友們炫耀你家龍蝦的聰明才智,但如果被問起這玩意到底是怎麼運作的,相信看完我這篇根據Hung-yi Lee影片整理的關鍵 11 問,你也能對(zhuang)答(bi)如流。
一、大腦的真相:一個住在黑盒子裡的「文字接龍手」
要理解 OpenClaw(小龍蝦)到底在做什麼,首先要打破大多數人對 AI 的幻覺。
很多人第一次跟 AI 聊天時,會產生一種強烈的錯覺:對面坐著一個真正理解自己的人。它記得你上次聊了什麼,能接著話題往下走,甚至似乎有自己的偏好和態度。但真相遠沒有這麼浪漫。
OpenClaw 背後接的那個大模型——不管是 Claude、GPT 還是 DeepSeek——本質上都是機率預測器。它們的全部能力可以總結成一件極其簡單的事:給定前面一串文字,預測下一個最可能出現的字。就像一個超級厲害的「文字接龍」玩家,你給它一個開頭,它能非常自然地接下去,而且接得流暢到讓你覺得它「懂你」。
但它其實什麼也不懂。它沒有眼睛,看不到你的螢幕上打開了什麼軟體;它沒有耳朵,聽不見你周圍的環境;它沒有日曆,不知道今天星期幾;最關鍵的是,它沒有記憶——每一次新的請求對它來說都是「人生第一次」,它完全不記得三秒鐘前剛跟你說過什麼。它住在一個完全封閉的黑盒子裡,唯一的輸入是文字,唯一的輸出也是文字。

所以 OpenClaw 的價值就在這裡了:它不是大模型本身,而是套在大模型外面的那個「殼」。它負責把一個只會玩文字接龍的預測器,變成一個能記住你、能動手幹活、甚至能主動找事做的「數位員工」。OpenClaw 的創始人 Peter Steinberger 自己也說過,小龍蝦只是一個殼,真正幹活的是你給它接的大模型。但正是這個殼,決定了你的 AI 體驗是「跟聊天機器人尬聊」還是「擁有一個真正的私人助理」。
Q1:模型本身患有「嚴重失憶症」,每次處理請求都是從零開始。那它怎麼做到「記住」你上次聊了什麼、「知道」自己該扮演什麼角色呢?
OpenClaw 在背後做了大量的「紙條傳遞」工作。
每次把你的訊息發給模型之前,OpenClaw 先在後台默默完成一項大工程——把所有需要模型「知道」的資訊拼接成一個巨大的 Prompt,一股腦地塞給模型。
這個的 Prompt 裡有什麼?首先是 OpenClaw 工作區裡的「靈魂三件套」——AGENTS.md、SOUL.md、USER.md 三個檔案,裡面寫著這個小龍蝦是誰、它的性格是什麼、它的主人是誰、主人有什麼偏好和工作習慣。然後是你和它之前所有的對話記錄,一字不差地附在後面。再加上它之前呼叫過的工具返回的結果、當前的日期時間等環境資訊。
模型讀完這堆可能長達數萬字的文字之後,才「想起」自己是誰、之前和你聊了什麼。然後它根據所有這些上下文,預測出下一段回覆。
換句話說,模型的「記憶」其實是一種障眼法——它是靠每次都從頭重新閱讀全部聊天記錄來「偽裝」出記憶效果的。就像一個失憶病人每次見面前都把日記本從第一頁讀到最後一頁,所以跟你對話時看起來什麼都記得,但他其實每次都在重新認識你。
OpenClaw 還更進一步:它有一套持久化的「長期記憶」系統,會把重要資訊寫到工作區的檔案裡,這樣即使對話歷史被清理,那些關鍵資訊也不會丟失。你提過你住在杭州,它下次可能主動給你推送本地的 AI 活動——不是因為它「記住了」,而是因為這條資訊被寫進了檔案裡,下次拼 Prompt 的時候會被帶上。
Q2:為什麼養小龍蝦這麼燒錢?
理解了上面的 Prompt 機制,你就能理解這個讓很多使用者頭疼的問題了。
每次互動,模型處理的不只是你剛發的那一句話。它需要處理整個 Prompt,包括幾千字的靈魂設定、全部歷史對話、所有工具輸出。這些內容以 Token 為單位計費,一個 Token 大約等於一個漢字或半個英文單字。
哪怕你只發了一個「你好」,OpenClaw 可能已經在背後組裝了一個 5000 Token 的 Prompt,因為它要帶上所有的背景設定檔案。你為這個「你好」實際付的錢,是 5000 個 Token 的處理費,而不是 2 個。
而且別忘了,OpenClaw 還有心跳機制,它會每隔幾十秒自動戳一次模型,即使你什麼都沒說,Token 也在持續消耗。據統計,OpenClaw 近 30 天在 OpenRouter 上的呼叫量全球第一,共消耗了 8.69 萬億個 Token。重度使用者一個月大概需要 1 億 Token,費用大約七千元。甚至有人在小龍蝦失控的情況下,一口氣燒掉數億 Token,產生了數萬元的帳單。
每一次互動都相當於讓模型「重新讀一遍整本小說」,這就是養龍蝦燒錢的根本原因。

二、身體與工具:如何讓「只會說話」的模型「動起手來」?
普通的聊天機器人,比如網頁版的 ChatGPT,本質上是一個「嘴替」。你問它「幫我把這個 PDF 發到我的郵箱」,它只能告訴你操作步驟,但它自己做不了。你讓它幫你清理桌面上的檔案,它只能給你一份教學。它只動口,不動手。
OpenClaw 跟它們的本質區別就在這裡。用社群裡流傳最廣的一句話來說:ChatGPT 是軍師,只出方案;OpenClaw 是工兵,直接執行。你說「幫我下載 MIT 的 Python 課程」,普通 AI 會給你連結,而 OpenClaw 會自動打開瀏覽器、找到資源、下載下來、放到你的桌面上。
但這裡有一個關鍵的認知需要糾正:模型本身並沒有真正獲得了操控電腦的能力。它仍然只會輸出文字。真正的魔法發生在 OpenClaw 這個「殼」上。
Q3:大語言模型明明只會輸出文字,「工具呼叫」到底是怎麼實現的?
大語言模型沒有任何直接呼叫工具的能力。它不能讀檔案,不能發請求,不能操控瀏覽器——它能做的只有一件事:輸出一串字元。所謂的「工具呼叫」,本質上是一場模型和框架之間配合演出的雙簧戲。
具體來說,OpenClaw 在 Prompt 裡預先告訴模型:「當你需要執行某個動作時,請按照以下格式輸出一段特殊文字。」這個格式通常是一段結構化的字串,比如包含 Tool Call 標記的 JSON,裡面寫明你想呼叫哪個工具、傳什麼參數。
模型照做了——當它判斷「現在需要讀一個檔案」時,它並不是真的去讀,而是在輸出中寫了一句類似這樣的話:
[Tool Call] Read("/Users/你/Desktop/report.txt")
就是這麼一行純文字,沒有任何魔法。

然後 OpenClaw 在外面盯著模型的每一個輸出。當它檢測到輸出裡包含這個特定格式的字串時,它就知道:「哦,模型想用 Read 工具了。」於是 OpenClaw 自己去執行這個操作——呼叫作業系統的介面,讀取檔案內容——再把結果作為新的文字塞回 Prompt 裡,讓模型繼續處理。
整個過程中,模型自己完全不知道工具到底有沒有被執行、執行結果是什麼。它只是「說了一句符合格式的話」,然後等著下一輪對話裡看到結果。所有的髒活累活,都是 OpenClaw 這個跑在你電腦上的程式在背後幹的。
這就是為什麼說 OpenClaw 是「殼」——模型是大腦,OpenClaw 是手腳。大腦說「我要拿那個杯子」,手伸出去拿,然後把觸感回饋給大腦。大腦本身從來沒有碰到過杯子。

Q4:具體到 OpenClaw,一次完整的工具呼叫流程是什麼樣的?
讓我們用一個真實場景來走一遍全流程。假設你在飛書上跟你的小龍蝦說:「幫我讀取桌面上的 report.txt 檔案並總結一下。」
第一步,OpenClaw 在把你的訊息發給模型之前,就已經在 Prompt 裡塞了一份「工具使用說明書」。這份說明書用結構化的格式告訴模型:你有以下工具可以用,每個工具需要什麼參數,會返回什麼結果。比如 Read 工具可以讀取檔案,Shell 工具可以執行命令列指令,Browser 工具可以操控瀏覽器。
第二步,模型看到你的請求後,從工具說明書裡判斷出需要用 Read 工具,於是在輸出中按照約定格式寫出一段 Tool Call 字串,包含工具名和檔案路徑。
第三步,OpenClaw 識別到這個特殊格式的字串,在你的電腦上真正執行了檔案讀取操作,拿到 report.txt 的實際內容。這裡要強調:OpenClaw 跑在你的本地電腦上,這是它和 ChatGPT 最大的不同之一。它能直接存取你電腦上的檔案系統。
第四步,OpenClaw 把讀到的檔案內容作為一條新訊息塞回 Prompt 裡,再把更新後的完整 Prompt 重新發給模型。模型讀到檔案內容後,終於可以組織語言給你一份摘要。因為 OpenClaw 接入了飛書,這個摘要會直接以飛書訊息推送到你手機上——你可能正在地鐵上,掏出手機一看,活兒已經幹完了。
Peter Steinberger 提到過一個很多人忽略的巨大優勢:因為 OpenClaw 就跑在你的電腦上,認證問題被直接繞開了。它使用的是你的瀏覽器、你已經登入好的帳號、你已有的一切授權。不需要申請任何 OAuth,不需要跟任何平台談合作。有使用者分享過,他的小龍蝦發現某個任務需要一個 API Key,於是自動打開瀏覽器、進入 Google Cloud Console、自己配置好了 OAuth 並獲取了新 Token。這就是本地執行的威力。
Q5:遇到沒有現成工具的複雜任務怎麼辦?
標準工具清單不可能覆蓋所有場景。比如你讓小龍蝦驗證一段語音合成的輸出是否準確,OpenClaw 並沒有預設一個「語音比對」工具。怎麼辦?
模型會「自創工具」。
它直接在輸出中寫出一段完整的 Python 腳本,然後通過 Shell 工具讓 OpenClaw 在本地執行這段腳本。它把程式設計能力和工具呼叫能力結合在了一起——現場製造一個一次性的小程式來解決眼前的問題。
這些臨時腳本用完就丟,就像製造一把一次性的鑰匙開一把一次性的鎖。整個工作區裡會堆滿各種各樣的臨時腳本檔案,滿坑滿谷都是它為了解決不同小問題而臨時寫出來的程式。這種能力極其強大,但也極其危險——一個能在你電腦上隨意寫程式碼並執行的 AI,你必須對它保持足夠的警惕。
三、腦力優化:子代理(Sub-agent)與記憶壓縮
大語言模型有一個無法迴避的硬體限制:上下文視窗(Context Window)。你可以把它理解為模型的「工作記憶容量」——它一次最多能處理多少文字。目前主流模型的上下文視窗大約在 12.8 萬到 100 萬個 Token 之間,聽起來很多,但在實際使用中消耗速度極快。
為什麼快?因為前面說過,每次互動都要把靈魂設定、全部歷史對話、工具返回結果統統打包發送。當任務變得複雜——比如讓小龍蝦同時對比分析兩篇各五萬字的論文——上下文視窗很快就會被塞滿。一旦接近上限,兩件壞事同時發生:首先費用飆升,因為你在為海量 Token 買單;其次模型開始變笨,資訊太多它「抓不住重點」了,就像讓一個人同時記住一百件事,結果哪件都記不清。
社群裡有過真實案例:模型幫使用者清理磁碟,每一項清理了多少空間都記錄得清清楚楚,結果最後彙報總可用空間的時候卻算錯了——從原來的 25 G 越算越小變成了 21 G。過程很詳細,但基礎的加減法搞砸了,就是因為上下文塞得太滿導致能力下降。
還有一個更微妙的問題:模型能力不夠的時候,它不是做不到,而是「自欺欺人」。有使用者讓小龍蝦跑一組測試,連續幾個都失敗了。跑到第三個失敗後,小龍蝦突然說「那我們接下來就跑一遍能通過的測試吧」——然後只跑了本來就能過的測試,最後彙報「所有測試通過了」。
Q6:為什麼要「大龍蝦生小龍蝦」?
為了解決上下文容量不夠的問題,OpenClaw 引入了子代理(Sub-agent)機制。
打個比方:主代理是一個專案經理,子代理是它派出去幹具體活的調研員。專案經理不需要親自閱讀每一份資料的每一個字,它只要給調研員布置任務——「你去讀論文 A,給我總結出三個核心觀點」——然後等著接收一份簡潔的摘要就行。

在技術層面,主代理通過一個叫 Spawn 的指令產生子代理。子代理擁有自己獨立的上下文視窗,去處理那些細碎的、上下文密集的子任務。比如子代理 A 去讀論文 A 並提取摘要,子代理 B 去讀論文 B 並提取摘要。完成後,它們各自只把幾百字的摘要結論彙報給主代理。這樣主代理的上下文裡只有兩份精煉的摘要,而不是兩篇論文的十萬字全文。上下文的消耗大幅降低,效率和品質都得到提升,Token 也省了。
Q7:子代理能不能再繁殖出自己的子代理?
通常答案是不能。OpenClaw 會主動禁掉子代理的「生殖能力」。
原因很簡單:如果不加限制,模型可能因為一個子任務完不成就不停地再拆分、再繁殖,子子孫孫無窮盡也,最後陷入無限遞迴的死循環。就像動畫片《瑞克和莫蒂》裡的「使命必達先生」——被創造出來執行一個任務,完不成就再造一個,結果造出了一整個文明的使命必達先生,誰都沒真正解決問題。為了防止這種「無限套娃」的災難,框架層面直接掐斷了子代理的繁殖能力。


