Polymarketの価格設定は間違っているのか？200のAIエージェントが危機をシミュレーションして意外な答えを導き出す

区块律动BlockBeats

特邀专栏作者

2026-03-18 06:10

この記事は約5513文字で、全文を読むには約8分かかります

参加者が多ければ多いほど、議論の構造は豊かになり、最終的に形成されるシグナルもより価値のあるものになる。

AI要約

展開

核心的な視点：MiroFishを使用して200のAIエージェントによるホルムズ海峡危機に関する集団討論をシミュレーションした実験では、エージェントが自由討論の中で自発的に形成した予測（平均47.9%）とPolymarket市場の予測（31%）に大きな差があり、さらに自由討論の中で悲観的な見解を示した少数の専門家エージェントの予測（平均22%）が市場価格に最も近いことが明らかになり、公的な発言と実際のリスク判断の間にシステマティックなバイアスが存在することが示された。
重要な要素：
1. 実験では、政府、メディア、金融機関など200の役割を含む模擬ソーシャルネットワークを構築し、5800文字のブリーフィング知識グラフに基づき、7日間のシミュレーション期間中に1888件の投稿と大量のインタラクション行動を生成した。
2. 集団の自由討論（有機的な結果）は全体的に楽観的で、平均予測確率は47.9%であったのに対し、Polymarket市場の価格設定が対応する確率は31%であり、両者の差は16.9パーセントポイントであった。
3. 自由討論の中で、自発的に悲観的な予測（≤30%）を示した7つの専門家エージェントの平均予測値（22%）は、市場結果に最も近く、誤差は10パーセントポイント以内であった。
4. インタビュー形式でエージェントに直接尋ねた場合、ほぼすべてのエージェントがより楽観的で協力的な予測（各カテゴリーの平均値はいずれも60%以上）を示し、自由討論でのパフォーマンスと鮮明な対照をなした。
5. 実験は、現実世界における類似の分裂を明らかにした：公的な言論はしばしば安定した楽観主義に傾くが、実際のリスク判断は実質的な行動、非公式な表現、または市場での賭けの中に隠されている。

原文タイトル：how I run 200 AI agents on the hormuz crisis with Mirofish, and compare it to polymarket

原文著者：The Smart Ape

原文翻訳：Peggy，BlockBeats

編集者注：AIが世論の場をシミュレートできるようになったとき、予測そのものも静かに変化しつつある。

本稿は、ホルムズ海峡情勢をめぐる実験の記録である：著者はMiroFishを用いて200のエージェントからなるシミュレーションシステムを構築し、政府、メディア、エネルギー企業、トレーダー、一般市民を模擬ソーシャルネットワーク上で共存させ、継続的な相互作用、議論、情報拡散の中で判断を形成させ、この集団の結果をPolymarketの市場価格と比較した。

結果は一致しなかった。集団討論は全体的に楽観的であったが、市場は著しく悲観的であった。自由発言の中では、少数の悲観論者の方がむしろ実際の価格形成に近かった。しかし、インタビュー状況に入ると、ほとんど全てのエージェントがより穏健で協調的な表現に収束した。

この分裂は見慣れたものだ。現実世界では、公の立場表明は往々にして安定と楽観に傾き、真のリスク判断は行動と非公式な表現の中に隠されている。言い換えれば、人々が「どう言うか」、「どう考えるか」、そして「金でどう賭けるか」は、しばしば三つの異なるシステムなのである。

このような構造の中で、最も価値のあるシグナルは、コンセンサスからではなく、ノイズの中で浮き彫りになる異質な声から来ることが多い。

以下が原文である：

私はMiroFishを使って、今後数週間のホルムズ海峡情勢をシミュレートした。このツールは、この種の問題を扱うのに非常に優れている。なぜなら、高度に複雑なシナリオ推論が可能だからだ：同一システム内に複数の主体、異なる役割、それぞれのインセンティブメカニズムを導入し、これらのエージェント間で絶えずゲームと議論を行わせ、最終的にコンセンサスに近い結果を徐々に形成させる。

以下は、私がこのシミュレーションを実行した具体的な手順と、最終的に得られた結果である。誰でも再現可能で、重要なのはどの手順を踏むべきかを知ることだけだ。

まず、MiroFishは中国の研究チームによるオープンソースプロジェクトである。これに一連の文書を入力すると、まず知識グラフを構築し、そのグラフに基づいて異なるエージェント人格を生成し、その後これらのエージェントを模擬Twitter環境に投入する。この環境では、彼らは投稿、リツイート、コメント、いいね、互いの議論を行う。シミュレーション終了後、各エージェントを個別にインタビューし、それぞれの立場と推論プロセスを確認することもできる。

危機シナリオを入力すると、その出来事をめぐる議論が生成される。そして、この議論から予測結果を抽出することができる。

私はこれを進行中のPolymarket市場の問題に向けた：2026年4月末までに、ホルムズ海峡の海上輸送は正常化するか？

そこで、私はこれらの情報をすべてMiroFishに与え、200のエージェント役割（政府、メディア、軍、エネルギー企業、トレーダー、一般市民を含む）を生成し、模擬環境で7シミュレーション日間議論させた。最後に、彼らの出力結果を市場価格と比較した。

全体構成は以下の通り：

・モデル：GPT-4o mini。200エージェントのシナリオでは、コストと効果のバランスが最も良い。

・メモリシステム：Zep Cloud。エージェントの記憶と知識グラフの保存に使用。

・シミュレーションエンジン：OASIS（Camel-AIが提供するTwitterクローン環境）

・ハードウェア：Mac mini M4 Pro、24GBメモリ

・実行時間：約49分、100ラウンドのシミュレーションを完了

・コスト：API呼び出しで約3〜5ドル

・シード資料：Wikipedia、CNBC、Al Jazeera、Forbes、Reutersから整理した5800文字のブリーフィング。内容は軍事タイムライン、封鎖状況、原油価格、経済的損失、外交努力、およびGCCの3.2兆ドル投資関連要因を含む。つまり、エージェントが判断を形成するために必要な核心情報がすべて含まれている。

このプロセスを再現する方法（ステップバイステップ説明）

もしあなたも自分で実行したいなら、以下が私が実際に行った完全な手順だ。全体のセットアップには約2時間かかり、APIコストは約3〜5ドル。ラウンド数やエージェント数を増やすと、コストはさらに高くなる。

準備するもの

・Python 3.12（3.14は使用不可。tiktokenがこのバージョンでエラーを出す）

・Node.js 22以上

・OpenAI APIキー（GPT-4o miniは十分に安価で、このシナリオに適している）

・Zep Cloudアカウント（小規模シミュレーションには無料版で十分）

・メモリがそこそこ良いマシン。私はMac mini M4 Pro（24GBメモリ）を使用したが、16GBでもおそらく十分だろう

ステップ1：MiroFishをインストールする

次に、.envファイルを設定する

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

ステップ2：プロジェクトを作成し、シード文書をアップロードする

シード文書はプロセス全体で最も重要な部分であり、エージェントが現在の情勢についてどのような情報を知っているかを決定する。私は当時、約5800文字のブリーフィングを準備した。内容は軍事タイムライン、封鎖状況、原油価格、経済的損失、外交努力、およびGCC投資レベルの影響をカバーし、情報源はWikipedia、CNBC、Al Jazeera、Forbes、Reutersを含んだ。

ステップ3：オントロジーを生成する

このステップは、MiroFishにどのタイプのエンティティを識別すべきか、およびこれらのエンティティ間にどのような関係が存在する可能性があるかを伝える。

私の場合は最終的に10種類のエンティティが生成された：国家、軍隊、外交官、事業体、メディア機関、経済主体、組織、個人、インフラ、予測市場。および6種類の関係。自動生成された結果があなたのシナリオに合わない場合は、手動で調整することもできる。

ステップ4：知識グラフを構築する

このステップではZep Cloudが使用される。MiroFishはシード文書とオントロジーをZepに送信し、Zepがエンティティの抽出とグラフ構築を担当する。

このプロセスには1、2分かかる。私は最終的に65のノードと85のエッジを含むグラフを得た。そこでは国家、人物、組織、商品などの要素がすべて接続されていた。

ステップ5：エージェントを生成する

MiroFishは知識グラフに基づいて、各エンティティに対して完全な人格設定を生成する。MBTI性格タイプ、年齢、所属国、投稿スタイル、感情トリガー、タブー話題、および組織的記憶などが含まれる。

私は最初に知識グラフから43のコアエージェントを生成した。その後、システムはこれらのコアロールを希望する総数まで拡張できる。私は最終的に総エージェント数を200に設定し、暗号トレーダー、航空会社パイロット、教授、学生、社会活動家など、より多様な一般市民ロールを追加した。

ステップ6：シミュレーション環境を準備する

このステップでは、エージェントの行動スケジュール、初期シード投稿、時間パラメータを含む完全なシミュレーション設定が生成される。MiroFishは、活動ピーク時間帯、睡眠時間、および異なるタイプのエージェントの投稿頻度など、比較的合理的なデフォルト設定を自動的に選択する。

私の設定は：合計168時間（7日間）のシミュレーション、100ラウンド（1ラウンドは1時間を表す）、Twitterシーンのみを使用し、異なるエージェントにそれぞれの活動時間表を設定した。

ステップ7：シミュレーションの実行を開始する。

そして待つ。私の場合は、GPT-4o miniで200エージェント、100ラウンドのシミュレーションを実行するのに約49分かかった。APIで進捗を監視することも、ログを直接確認することもできる。

プロセス全体を通じて、エージェントは自律的に実行される：彼らはタイムラインを観察し、投稿するか、リツイートコメントするか、転送するか、いいねするか、単にフィードをスクロールするかを決定する。このプロセスには人為的な介入は必要ない。

ステップ8（オプション）：エージェントをインタビューする

シミュレーション終了後、システムはコマンドモードに入る。この時、特定のエージェントを個別にインタビューすることも、すべてのエージェントを一度にインタビューすることもできる：

分析

MiroFishはまずシード文書を読み込み、オントロジー構造（10種類のエンティティと6種類の関係を含む）を自動生成する。その後、これらの定義に基づいて知識グラフ（65のノードと85のエッジを含む）を抽出する。この基盤の上に、各エンティティに対して完全な人格設定を構築する。MBTI性格タイプ、年齢、所属国、投稿スタイル、感情トリガー、制度的記憶などの要素が含まれる。

最終的に、知識グラフから43のコアエージェントが生成され、その基盤上で総エージェント数200まで拡張され、より多様な一般市民ロールが導入され、全体のシミュレーションの多様性とリアリズムが強化された。

具体的な構成は以下の通り：

・140の一般市民エージェント：暗号トレーダー、航空パイロット、サプライチェーンマネージャー、学生、社会活動家、教授など

・16の外交/政府役割：イラン外相、サウジアラビア外相、オマーン外相、バーレーン首相、中国外相、EU、国連など

・15のメディア機関：ロイター、CNN、ブルームバーグ、アルジャジーラ、BBC、フォックス、ウォールストリートジャーナルなど

・10のエネルギー/海運関連：OPEC、プラッツ、カタールエネルギー、アラムコ、マースクなど

・7の金融機関：Polymarket、Kalshi、ゴールドマン・サックス、JPモルガン、シタデル、ADIAなど

・2の軍事/政治役割：トランプ、イラン革命防衛隊司令官

7日間（100ラウンド）のシミュレーション過程で、合計で以下が発生：

1,888件の投稿

6,661件の行動軌跡（すべての動作を記録）

1,611件の引用リツイート（エージェント間の相互応答とゲーム）

4,051回のリフレッシュ（フィードの閲覧のみ）

311回の何もしない（様子見を選択）

208回のいいね、207回のリツイート

70件のオリジナルな見解（新しい独立した立場や判断）

全体として、このシステムが示すのは単純な情報生成ではなく、社会行動シミュレーションに近い：ほとんどの時間、エージェントは観察、情報の消化、相互作用に費やし、継続的な出力は行わない。この構造は、むしろ実際の世論の場における行動分布に近い——少量のオリジナルコンテンツに、大量の転載、ゲーム、感情的反応が重なる。