Polymarket的定價錯了？200個AI代理模擬危機給出意外答案

区块律动BlockBeats

特邀专栏作者

2026-03-18 06:10

本文約5513字，閱讀全文需要約8分鐘

參與者越多，討論結構就越豐富，最終形成的信號也會越有價值。

AI總結

展開

核心觀點：一項使用MiroFish模擬200個AI代理對霍爾木茲海峽危機進行群體討論的實驗發現，代理在自由討論中自發形成的預測（平均47.9%）與Polymarket市場預測（31%）存在顯著差異，且少數在自由討論中持悲觀態度的專家代理的預測（平均22%）最接近市場定價，揭示了公開表態與真實風險判斷之間的系統性偏差。
關鍵要素：
1. 實驗構建了一個包含政府、媒體、金融機構等200個角色的模擬社交網絡，基於5800字符的簡報知識圖譜，在7天模擬期內產生了1888條帖子和大量互動行為。
2. 群體自由討論（有機結果）整體偏樂觀，平均預測概率為47.9%，而Polymarket市場定價對應的概率為31%，兩者相差16.9個百分點。
3. 在自由討論中，少數自發給出悲觀預測（≤30%）的7個專家代理，其平均預測值（22%）與市場結果最為接近，誤差在10個百分點以內。
4. 當以訪談形式直接詢問代理時，幾乎所有代理都給出了更樂觀、合作的預測（各類別平均值均在60%以上），與自由討論中的表現形成鮮明對比。
5. 實驗揭示了現實世界的類似分裂：公開言論往往趨於穩定樂觀，而真實的風險判斷則隱藏於實際行動、非正式表達或市場下注之中。

原文標題：how I run 200 AI agents on the hormuz crisis with Mirofish, and compare it to polymarket

原文作者：The Smart Ape

原文編譯：Peggy，BlockBeats

編者按：當 AI 開始能夠模擬一個輿論場，預測這件事本身，也在悄然發生變化。

本文記錄了一次圍繞霍爾木茲海峽局勢的實驗：作者用 MiroFish 構建了一個由 200 個代理組成的仿真系統，讓政府、媒體、能源公司、交易員與普通人共同生活在一個模擬的社交網絡中，在持續互動、爭論與資訊傳播中形成判斷，並將這一群體結果與 Polymarket 的市場定價進行對比。

結果並不一致。群體討論整體偏樂觀，而市場顯著更悲觀；在自由發言中，少數悲觀者反而更接近真實定價；而一旦進入訪談情境，幾乎所有代理都會收斂到更溫和、合作性的表達。

這種分裂並不陌生。在現實世界中，公開表態往往趨於穩定與樂觀，而真正的風險判斷，則隱藏在行動與非正式表達之中。換句話說，人們怎麼說，與他們怎麼想，以及用錢如何下注，往往是三套不同的系統。

在這樣的結構中，最有價值的信號，往往不來自共識，而來自那些在噪音中顯得不合群的聲音。

以下為原文：

我用 MiroFish 模擬了未來幾週霍爾木茲海峽的局勢。這個工具在處理這類問題時非常出色，因為它可以進行高度複雜的情景推演：在同一系統中引入多個參與主體、不同角色與各自的激勵機制，並讓這些代理之間不斷博弈、辯論，最終逐步形成一種接近共識的結果。

以下是我運行這場模擬的具體步驟，以及我最終得到的結果。任何人都可以復現，關鍵只是知道該按哪些步驟來操作。

首先，MiroFish 是一個來自中國研究團隊的開源項目。你向它輸入一批文檔後，它會先構建知識圖譜，再基於這張圖譜生成不同的代理人格，隨後把這些代理投放進一個模擬的 Twitter 環境中。在這個環境裡，它們會發文、轉推評論、點讚、互相爭論。模擬結束之後，你還可以逐個採訪每一個代理，查看它們各自的立場與推理過程。

你向它輸入一個危機場景，它會生成一場圍繞該事件的辯論；再從這場辯論中，你可以提煉出一個預測結果。

我把它對準了一個正在進行的 Polymarket 市場問題：到 2026 年 4 月底，霍爾木茲海峽的海上運輸是否會恢復正常？

於是，我把這些資訊全部餵給了 MiroFish，生成了 200 個代理角色——包括政府、媒體、軍方、能源公司、交易員，以及普通民眾——然後讓他們在一個模擬環境中爭論 7 個模擬日。最後，再把他們輸出的結果與市場定價進行對比。

整體配置如下：

·模型：GPT-4o mini，在 200 個代理的場景下，成本與效果的平衡最好

·記憶系統：Zep Cloud，用於儲存代理記憶和知識圖譜

·仿真引擎：OASIS（Camel-AI 提供的 Twitter 克隆環境）

·硬體：Mac mini M4 Pro，24GB 記憶體

·運行時長：約 49 分鐘，完成 100 輪模擬

·成本：API 呼叫約 3 到 5 美元

·種子材料：一份 5800 字元的簡報，整理自 Wikipedia、CNBC、Al Jazeera、Forbes、Reuters，內容包括軍事時間線、封鎖狀態、油價、經濟損失、外交努力，以及 GCC 3.2 兆美元投資相關因素。也就是說，代理形成判斷所需的核心資訊都被納入其中。

如何復現這套流程（逐步說明）

如果你也想自己跑一遍，下面就是我實際操作的完整步驟。整套流程大約需要 2 小時完成配置，API 成本約為 3 到 5 美元；如果你增加輪數或代理數量，成本還會更高。

你需要準備的東西

·Python 3.12（不要用 3.14，tiktoken 在這個版本上會報錯）

·Node.js 22 及以上版本

·一個 OpenAI API Key（GPT-4o mini 足夠便宜，適合這個場景）

·一個 Zep Cloud 帳戶（小規模模擬用免費版就夠）

·一台記憶體還不錯的機器。我用的是 Mac mini M4 Pro，24GB 記憶體，不過 16GB 應該也夠用

第一步：安裝 MiroFish

然後配置你的.env 檔案

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

第二步：建立專案並上傳你的種子文件

種子文件是整個流程裡最重要的一部分，它決定了代理知道哪些關於當前局勢的資訊。我當時準備的是一份約 5800 字元的簡報，內容涵蓋軍事時間線、封鎖狀態、油價、經濟損失、外交努力，以及 GCC 投資這一層面的影響，資料來源包括 Wikipedia、CNBC、Al Jazeera、Forbes 和 Reuters。

第三步：生成本體（ontology）

這一步是告訴 MiroFish，它應該識別哪些類型的實體，以及這些實體之間可能存在什麼關係。

我這邊最終生成了 10 類實體：國家、軍方、外交人員、商業實體、媒體機構、經濟實體、組織、個人、基礎設施、預測市場；以及 6 類關係。若自動生成的結果不太貼合你的場景，也可以手動調整。

第四步：構建知識圖譜

這一步就會用到 Zep Cloud。MiroFish 會把種子文件和本體一起發送給 Zep，由它負責抽取實體並構建圖譜。

這個過程大概需要一兩分鐘。我最終得到的是一個包含 65 個節點、85 條邊的圖譜，裡面把國家、人物、組織、大宗商品等元素都連接了起來。

第五步：生成代理

MiroFish 會根據知識圖譜，為每個實體生成一套完整的人格設定，包括 MBTI 性格類型、年齡、所屬國家、發文風格、情緒觸發點、禁忌話題，以及機構記憶等。

我最初從知識圖譜中生成了 43 個核心代理。之後，系統還能把這些核心角色擴展到你想要的總數量。我最後把總代理數設成了 200，並額外加入了更多樣化的平民角色，例如加密交易員、航空公司飛行員、教授、學生、社會活動人士等。

第六步：準備仿真環境

這一步會生成完整的仿真配置，包括代理的行動日程、初始種子貼文以及時間參數。MiroFish 會自動選擇一套相對合理的預設設定，比如活躍高峰時段、睡眠時間、以及不同類型代理各自的發文頻率。

我當時的配置是：共模擬 168 小時（7 天）、100 輪（每輪代表 1 小時）、只使用 Twitter 場景，並為不同代理設定了各自的活躍時間表。

第七步：開始執行模擬。

然後就是等待。我這邊用 GPT-4o mini 跑 200 個代理、100 輪模擬，耗時大約 49 分鐘。你可以透過 API 監控進度，也可以直接查看日誌。

在整個過程中，代理會自主執行：它們會觀察時間線，決定自己是發文、轉推評論、轉發、點讚，還是單純刷一刷資訊流，整個過程不需要人工干預。

第八步（可選）：採訪代理

模擬結束後，系統會進入命令模式。這時你可以單獨採訪某個代理，也可以一次性採訪全部代理：

分析

MiroFish 會先讀取種子文件，並自動生成本體結構（包括 10 類實體與 6 類關係）；隨後基於這些定義抽取出一張知識圖譜（包含 65 個節點與 85 條邊）。在此基礎上，它會為每一個實體構建完整的人格設定，包括 MBTI 性格類型、年齡、所屬國家、發文風格、情緒觸發點以及制度性記憶等要素。

最終，從知識圖譜中生成了 43 個核心代理，並在此基礎上擴展至 200 個總代理，引入更多樣化的平民角色，以增強整體模擬的多樣性與真實感。

具體構成如下：

·140 個平民代理：加密交易員、航空飛行員、供應鏈經理、學生、社會活動人士、教授等

·16 個外交/政府角色：伊朗外長、沙烏地外長、阿曼外長、巴林首相、中國外長、歐盟、聯合國等

·15 個媒體機構：路透、CNN、彭博、半島電視台、BBC、福克斯、華爾街日報等

·10 個能源/航運相關：OPEC、Platts、QatarEnergy、Aramco、馬士基等

·7 個金融機構：Polymarket、Kalshi、高盛、摩根大通、Citadel、ADIA 等

·2 個軍事/政治角色：川普、伊朗革命衛隊指揮官

在 7 天（100 輪）的模擬過程中，共產生：

1,888 條貼文

6,661 條行為軌跡（記錄所有動作）

1,611 條引用轉發（代理之間相互回應與博弈）

4,051 次刷新（僅瀏覽資訊流）

311 次什麼都不做（選擇觀望）

208 次點讚、207 次轉發

70 條原創觀點（新的獨立立場或判斷）

整體來看，這個系統呈現出的並不是簡單的資訊生成，而更接近一個社會行為模擬：絕大多數時間，代理在觀察、消化資訊與互動，而非持續輸出。這種結構，反而更貼近真實輿論場中的行為分佈——少量原創內容，疊加大量的轉述、博弈與情緒回饋。

代理的大部分時間都花在閱讀和引用他人觀點上，而不是主動創造新的內容。

整個群體在情緒傳播上呈現出明顯偏向：樂觀觀點更容易被放大和轉發，而偏悲觀的判斷，即便在邏輯上更接近現實，也往往傳播更少、聲量更弱。

更有意思的是，有 19 個代理在發文過程中自發給出了具體的機率判斷，並不是被要求這麼做，而是在討論中自然演化出來的結果。

群體自發形成的平均機率為 47.9%，而 Polymarket 市場給出的機率為 31%，兩者之間存在 16.9 個百分點的差距。

在模擬過程中，一些代理甚至在 100 輪互動中改變了自己的立場。

模擬結束後，我使用 MiroFish 的採訪功能，向 43 個核心代理提出同一個問題：你認為到 2026 年 4 月底，霍爾木茲海峽的海上運輸恢復正常的機率是多少（0–100%）？

結果是：43 個代理中有 31 個給出了具體數值，另有 12 個選擇拒絕回答。值得注意的是，那些最為謹慎的聲音，往往選擇自我審查，而不是給出明確預測——而這，恰恰也更接近現實中這些機構的行為方式。

每一個類別的平均值都在 60% 以上：軍方為 75%，媒體為 69%，能源為 66%，金融為 65%，外交為 61%。而市場給出的數字是 31.5%。

自然演化的群體結果（organic）與訪談結果（interview）：呈現出兩幅截然不同的圖景。

這就是最關鍵的發現。

訪談結果會顯得更加樂觀。當代理自由發文時，空頭（悲觀者）的觀點往往更響亮、更具體；但當你對他們進行一對一採訪時，出於合作偏好，幾乎所有人都會給出 60%–70% 的判斷。

自然演化的結果（organic）更可靠。一位金融顧問在激烈討論中發文說我估計是 65%，這是在互動過程中形成的判斷；而一個代理在訪談中回答問題，本質上是在進行模式匹配。

那些自然表達中的悲觀者，反而是最好的預測者。在模擬中給出 ≤30% 機率的 7 個代理（伊朗外長、中國外長、Kalshi、Platts、一位經濟學教授、一名伊朗學生、一位反戰活動人士），平均值為 22%，與 Polymarket 的結果相差不到 10 個百分點。專業知識 + 自然表達 = 最接近市場。

更關鍵的是，這不僅僅是一個 AI 的現象，現實世界中的行為者也是如此。

你去採訪任何一位國家領導人談論一場危機，他們都會說我們致力於和平、我們對解決方案保持樂觀。這是標準話術，是鏡頭前必須說的話。但如果你去看他們實際在做什麼：軍事部署、制裁、資產凍結、撤資——他們的行動，往往講述的是一個完全不同的故事。

沙烏地王儲會對路透社說我們相信外交手段，與此同時，他的主權財富基金正在審視高達 3.2 兆美元的美國資產配置。伊朗總統會說和平是我們的共同目標，但伊朗革命衛隊卻在海峽布設水雷。川普會說走著瞧，同時拒絕每一個停火提議。

這場模擬在無意中復現了同樣的結構性分裂：當代理自由發文、爭論、回應和傳播資訊時，其中的專家群體逐漸收斂在 20%–30% 的區間——更悲觀，也更接近現實；但一旦你把他們請進會議室，正式提問你的預測是多少？，他們立刻切換到外交模式：65%–70%，明顯更樂觀。

自然發文，更像是私下行為和非公開對話；訪談結果，則更像是新聞發布會。如果你真的想知道一個人怎麼想

預測市場

歡迎加入Odaily官方社群