BTC
ETH
HTX
SOL
BNB
查看行情
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

Polymarket的定價錯了?200個AI代理模擬危機給出意外答案

区块律动BlockBeats
特邀专栏作者
2026-03-18 06:10
本文約5513字,閱讀全文需要約8分鐘
參與者越多,討論結構就越豐富,最終形成的信號也會越有價值。
AI總結
展開
  • 核心觀點:一項使用MiroFish模擬200個AI代理對霍爾木茲海峽危機進行群體討論的實驗發現,代理在自由討論中自發形成的預測(平均47.9%)與Polymarket市場預測(31%)存在顯著差異,且少數在自由討論中持悲觀態度的專家代理的預測(平均22%)最接近市場定價,揭示了公開表態與真實風險判斷之間的系統性偏差。
  • 關鍵要素:
    1. 實驗構建了一個包含政府、媒體、金融機構等200個角色的模擬社交網絡,基於5800字符的簡報知識圖譜,在7天模擬期內產生了1888條帖子和大量互動行為。
    2. 群體自由討論(有機結果)整體偏樂觀,平均預測概率為47.9%,而Polymarket市場定價對應的概率為31%,兩者相差16.9個百分點。
    3. 在自由討論中,少數自發給出悲觀預測(≤30%)的7個專家代理,其平均預測值(22%)與市場結果最為接近,誤差在10個百分點以內。
    4. 當以訪談形式直接詢問代理時,幾乎所有代理都給出了更樂觀、合作的預測(各類別平均值均在60%以上),與自由討論中的表現形成鮮明對比。
    5. 實驗揭示了現實世界的類似分裂:公開言論往往趨於穩定樂觀,而真實的風險判斷則隱藏於實際行動、非正式表達或市場下注之中。

原文標題:how I run 200 AI agents on the hormuz crisis with Mirofish, and compare it to polymarket

原文作者:The Smart Ape

原文編譯:Peggy,BlockBeats

編者按:當 AI 開始能夠模擬一個輿論場,預測這件事本身,也在悄然發生變化。

本文記錄了一次圍繞霍爾木茲海峽局勢的實驗:作者用 MiroFish 構建了一個由 200 個代理組成的仿真系統,讓政府、媒體、能源公司、交易員與普通人共同生活在一個模擬的社交網絡中,在持續互動、爭論與資訊傳播中形成判斷,並將這一群體結果與 Polymarket 的市場定價進行對比。

結果並不一致。群體討論整體偏樂觀,而市場顯著更悲觀;在自由發言中,少數悲觀者反而更接近真實定價;而一旦進入訪談情境,幾乎所有代理都會收斂到更溫和、合作性的表達。

這種分裂並不陌生。在現實世界中,公開表態往往趨於穩定與樂觀,而真正的風險判斷,則隱藏在行動與非正式表達之中。換句話說,人們怎麼說,與他們怎麼想,以及用錢如何下注,往往是三套不同的系統。

在這樣的結構中,最有價值的信號,往往不來自共識,而來自那些在噪音中顯得不合群的聲音。

以下為原文:

我用 MiroFish 模擬了未來幾週霍爾木茲海峽的局勢。這個工具在處理這類問題時非常出色,因為它可以進行高度複雜的情景推演:在同一系統中引入多個參與主體、不同角色與各自的激勵機制,並讓這些代理之間不斷博弈、辯論,最終逐步形成一種接近共識的結果。

以下是我運行這場模擬的具體步驟,以及我最終得到的結果。任何人都可以復現,關鍵只是知道該按哪些步驟來操作。

首先,MiroFish 是一個來自中國研究團隊的開源項目。你向它輸入一批文檔後,它會先構建知識圖譜,再基於這張圖譜生成不同的代理人格,隨後把這些代理投放進一個模擬的 Twitter 環境中。在這個環境裡,它們會發文、轉推評論、點讚、互相爭論。模擬結束之後,你還可以逐個採訪每一個代理,查看它們各自的立場與推理過程。

你向它輸入一個危機場景,它會生成一場圍繞該事件的辯論;再從這場辯論中,你可以提煉出一個預測結果。

我把它對準了一個正在進行的 Polymarket 市場問題:到 2026 年 4 月底,霍爾木茲海峽的海上運輸是否會恢復正常?

於是,我把這些資訊全部餵給了 MiroFish,生成了 200 個代理角色——包括政府、媒體、軍方、能源公司、交易員,以及普通民眾——然後讓他們在一個模擬環境中爭論 7 個模擬日。最後,再把他們輸出的結果與市場定價進行對比。

整體配置如下:

·模型:GPT-4o mini,在 200 個代理的場景下,成本與效果的平衡最好

·記憶系統:Zep Cloud,用於儲存代理記憶和知識圖譜

·仿真引擎:OASIS(Camel-AI 提供的 Twitter 克隆環境)

·硬體:Mac mini M4 Pro,24GB 記憶體

·運行時長:約 49 分鐘,完成 100 輪模擬

·成本:API 呼叫約 3 到 5 美元

·種子材料:一份 5800 字元的簡報,整理自 Wikipedia、CNBC、Al Jazeera、Forbes、Reuters,內容包括軍事時間線、封鎖狀態、油價、經濟損失、外交努力,以及 GCC 3.2 兆美元投資相關因素。也就是說,代理形成判斷所需的核心資訊都被納入其中。

如何復現這套流程(逐步說明)

如果你也想自己跑一遍,下面就是我實際操作的完整步驟。整套流程大約需要 2 小時完成配置,API 成本約為 3 到 5 美元;如果你增加輪數或代理數量,成本還會更高。

你需要準備的東西

·Python 3.12(不要用 3.14,tiktoken 在這個版本上會報錯)

·Node.js 22 及以上版本

·一個 OpenAI API Key(GPT-4o mini 足夠便宜,適合這個場景)

·一個 Zep Cloud 帳戶(小規模模擬用免費版就夠)

·一台記憶體還不錯的機器。我用的是 Mac mini M4 Pro,24GB 記憶體,不過 16GB 應該也夠用

第一步:安裝 MiroFish

然後配置你的.env 檔案

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

第二步:建立專案並上傳你的種子文件

種子文件是整個流程裡最重要的一部分,它決定了代理知道哪些關於當前局勢的資訊。我當時準備的是一份約 5800 字元的簡報,內容涵蓋軍事時間線、封鎖狀態、油價、經濟損失、外交努力,以及 GCC 投資這一層面的影響,資料來源包括 Wikipedia、CNBC、Al Jazeera、Forbes 和 Reuters。

第三步:生成本體(ontology)

這一步是告訴 MiroFish,它應該識別哪些類型的實體,以及這些實體之間可能存在什麼關係。

我這邊最終生成了 10 類實體:國家、軍方、外交人員、商業實體、媒體機構、經濟實體、組織、個人、基礎設施、預測市場;以及 6 類關係。若自動生成的結果不太貼合你的場景,也可以手動調整。

第四步:構建知識圖譜

這一步就會用到 Zep Cloud。MiroFish 會把種子文件和本體一起發送給 Zep,由它負責抽取實體並構建圖譜。

這個過程大概需要一兩分鐘。我最終得到的是一個包含 65 個節點、85 條邊的圖譜,裡面把國家、人物、組織、大宗商品等元素都連接了起來。

第五步:生成代理

MiroFish 會根據知識圖譜,為每個實體生成一套完整的人格設定,包括 MBTI 性格類型、年齡、所屬國家、發文風格、情緒觸發點、禁忌話題,以及機構記憶等。

我最初從知識圖譜中生成了 43 個核心代理。之後,系統還能把這些核心角色擴展到你想要的總數量。我最後把總代理數設成了 200,並額外加入了更多樣化的平民角色,例如加密交易員、航空公司飛行員、教授、學生、社會活動人士等。

第六步:準備仿真環境

這一步會生成完整的仿真配置,包括代理的行動日程、初始種子貼文以及時間參數。MiroFish 會自動選擇一套相對合理的預設設定,比如活躍高峰時段、睡眠時間、以及不同類型代理各自的發文頻率。

我當時的配置是:共模擬 168 小時(7 天)、100 輪(每輪代表 1 小時)、只使用 Twitter 場景,並為不同代理設定了各自的活躍時間表。

第七步:開始執行模擬。

然後就是等待。我這邊用 GPT-4o mini 跑 200 個代理、100 輪模擬,耗時大約 49 分鐘。你可以透過 API 監控進度,也可以直接查看日誌。

在整個過程中,代理會自主執行:它們會觀察時間線,決定自己是發文、轉推評論、轉發、點讚,還是單純刷一刷資訊流,整個過程不需要人工干預。

第八步(可選):採訪代理

模擬結束後,系統會進入命令模式。這時你可以單獨採訪某個代理,也可以一次性採訪全部代理:

分析

MiroFish 會先讀取種子文件,並自動生成本體結構(包括 10 類實體與 6 類關係);隨後基於這些定義抽取出一張知識圖譜(包含 65 個節點與 85 條邊)。在此基礎上,它會為每一個實體構建完整的人格設定,包括 MBTI 性格類型、年齡、所屬國家、發文風格、情緒觸發點以及制度性記憶等要素。

最終,從知識圖譜中生成了 43 個核心代理,並在此基礎上擴展至 200 個總代理,引入更多樣化的平民角色,以增強整體模擬的多樣性與真實感。

具體構成如下:

·140 個平民代理:加密交易員、航空飛行員、供應鏈經理、學生、社會活動人士、教授等

·16 個外交/政府角色:伊朗外長、沙烏地外長、阿曼外長、巴林首相、中國外長、歐盟、聯合國等

·15 個媒體機構:路透、CNN、彭博、半島電視台、BBC、福克斯、華爾街日報等

·10 個能源/航運相關:OPEC、Platts、QatarEnergy、Aramco、馬士基等

·7 個金融機構:Polymarket、Kalshi、高盛、摩根大通、Citadel、ADIA 等

·2 個軍事/政治角色:川普、伊朗革命衛隊指揮官

在 7 天(100 輪)的模擬過程中,共產生:

1,888 條貼文

6,661 條行為軌跡(記錄所有動作)

1,611 條引用轉發(代理之間相互回應與博弈)

4,051 次刷新(僅瀏覽資訊流)

311 次什麼都不做(選擇觀望)

208 次點讚、207 次轉發

70 條原創觀點(新的獨立立場或判斷)

整體來看,這個系統呈現出的並不是簡單的資訊生成,而更接近一個社會行為模擬:絕大多數時間,代理在觀察、消化資訊與互動,而非持續輸出。這種結構,反而更貼近真實輿論場中的行為分佈——少量原創內容,疊加大量的轉述、博弈與情緒回饋。

代理的大部分時間都花在閱讀和引用他人觀點上,而不是主動創造新的內容。

整個群體在情緒傳播上呈現出明顯偏向:樂觀觀點更容易被放大和轉發,而偏悲觀的判斷,即便在邏輯上更接近現實,也往往傳播更少、聲量更弱。

更有意思的是,有 19 個代理在發文過程中自發給出了具體的機率判斷,並不是被要求這麼做,而是在討論中自然演化出來的結果。

群體自發形成的平均機率為 47.9%,而 Polymarket 市場給出的機率為 31%,兩者之間存在 16.9 個百分點的差距。

在模擬過程中,一些代理甚至在 100 輪互動中改變了自己的立場。

模擬結束後,我使用 MiroFish 的採訪功能,向 43 個核心代理提出同一個問題:你認為到 2026 年 4 月底,霍爾木茲海峽的海上運輸恢復正常的機率是多少(0–100%)?

結果是:43 個代理中有 31 個給出了具體數值,另有 12 個選擇拒絕回答。值得注意的是,那些最為謹慎的聲音,往往選擇自我審查,而不是給出明確預測——而這,恰恰也更接近現實中這些機構的行為方式。

每一個類別的平均值都在 60% 以上:軍方為 75%,媒體為 69%,能源為 66%,金融為 65%,外交為 61%。而市場給出的數字是 31.5%。

自然演化的群體結果(organic)與訪談結果(interview):呈現出兩幅截然不同的圖景。

這就是最關鍵的發現。

訪談結果會顯得更加樂觀。當代理自由發文時,空頭(悲觀者)的觀點往往更響亮、更具體;但當你對他們進行一對一採訪時,出於合作偏好,幾乎所有人都會給出 60%–70% 的判斷。

自然演化的結果(organic)更可靠。一位金融顧問在激烈討論中發文說我估計是 65%,這是在互動過程中形成的判斷;而一個代理在訪談中回答問題,本質上是在進行模式匹配。

那些自然表達中的悲觀者,反而是最好的預測者。在模擬中給出 ≤30% 機率的 7 個代理(伊朗外長、中國外長、Kalshi、Platts、一位經濟學教授、一名伊朗學生、一位反戰活動人士),平均值為 22%,與 Polymarket 的結果相差不到 10 個百分點。專業知識 + 自然表達 = 最接近市場。

更關鍵的是,這不僅僅是一個 AI 的現象,現實世界中的行為者也是如此。

你去採訪任何一位國家領導人談論一場危機,他們都會說我們致力於和平、我們對解決方案保持樂觀。這是標準話術,是鏡頭前必須說的話。但如果你去看他們實際在做什麼:軍事部署、制裁、資產凍結、撤資——他們的行動,往往講述的是一個完全不同的故事。

沙烏地王儲會對路透社說我們相信外交手段,與此同時,他的主權財富基金正在審視高達 3.2 兆美元的美國資產配置。伊朗總統會說和平是我們的共同目標,但伊朗革命衛隊卻在海峽布設水雷。川普會說走著瞧,同時拒絕每一個停火提議。

這場模擬在無意中復現了同樣的結構性分裂:當代理自由發文、爭論、回應和傳播資訊時,其中的專家群體逐漸收斂在 20%–30% 的區間——更悲觀,也更接近現實;但一旦你把他們請進會議室,正式提問你的預測是多少?,他們立刻切換到外交模式:65%–70%,明顯更樂觀。

自然發文,更像是私下行為和非公開對話;訪談結果,則更像是新聞發布會。如果你真的想知道一個人怎麼想

AI
預測市場
歡迎加入Odaily官方社群