AI予測実録：AIで予測市場で稼ぎたい？しかし、問題すらきちんと読んでいない可能性も

南枳

Odaily资深作者

2026-01-04 08:41

この記事は約2312文字で、全文を読むには約4分かかります

集団知恵による降次元攻撃を狙ったが、適切な誘導がない状況ではAIは依然として頻繁に幻覚を起こす。

AI要約

展開

核心的な見解：予測市場において、AIは一部の人間よりも優れたパフォーマンスを示す。
重要な要素：
1. Grokの勝率は75%で、人間の66.7%を上回る。
2. AIは検索と論理に依存するが、誤った判断も存在する。
3. AI予測は市場データに依存せず、群集心理に流されない。
市場への影響：AIは新たな市場分析ツールとなる可能性がある。
時効性の注記：中期的な影響。

オリジナル | Odaily（@OdailyChina）

著者｜南枳（@Assassin_Malvo）

多くの分野が実証されない中、予測市場はCrypto界で依然として正の成長を遂げている数少ない分野の一つとなっている。11月20日、南枳は昨年Memeの賢明な資金を探した考え方を用いて予測市場の賢明な資金を探し始め、初期には良い成果を上げた。

12月初旬、Gemini 3 Proがちょうどリリースされた時期に、関連モデルをテストしている際、AIを使って予測市場を分析・予測し、人間対AIでどちらがより正確に予測できるかを試すことができるのではないかと考えた。

予測市場を紹介する際、通常は「洞察を持つ人々に実際の資金を使って賭けさせる」ことで、市場を「真実」に近づけると宣伝されている。しかし、Crypto+予測市場は「インサイダー」が情報格差から得られる利益を安全に得られるようにし、市場を「インサイダー結果」に向かわせるという見方もある。これは本質的に「集団の知恵」と「真実は少数の手にある」という二つの見方の対立であり、AI予測はより「集団の知恵」に傾いているため、大量の利用可能な知識と洞察が必要となる。

したがって、どのAIモデルを選択するかという問題では、GeminiとGrokを最初に選んだ。なぜなら、これらはGoogleとXプラットフォームに依存しており、最も直接的に大量の知識と洞察を得ることができるからだ。最近、南枳はさらに「豆包+抖音知識」の組み合わせを追加したが、予測問題がまだ多くないため、今回はこれには触れない。

基本ルール

AIバージョン：Gemini 2.5 pro（Google検索機能付き）、Grok 4 Fast（OpenRouter経由で呼び出し、ネイティブ検索機能を有効化）
問題選択：人間が賭けの問題を選択し、AIがそれに従って予測するが、Crypto分野は除外する
入力内容：公式問題（title）、公式説明（Description）、選択可能な回答（実際にはYesとNoのみ）

注：Polymarketの問題は大カテゴリーのEventとサブカテゴリーのMarketに分かれており、大カテゴリーのEventは「誰が次のFRB議長になるか」、「Strategyがいつビットコインを売却するか」といった広範な問題である。Eventの下にはさらにN個のサブ市場が含まれており、例えば「ハセットが次のFRB議長になるか」、「Strategyが2026年3月31日までにビットコインを売却するか」といった具体的な選択肢がある。人間の予測と合わせるため、ここではMarketをAIが判断する問題として選択し、他の選択肢は入力しない。例えば、「ハセットが次のFRB議長になるか」を判断させるだけで、N人の候補者から最も可能性の高い人物を選ばせることはしない。

プロンプト設計：
AIに最新ニュース、公式発表、専門家分析レポートを検索するよう要求
予測市場データの使用を排除・禁止するよう要求
「証拠」に基づき、論理的推論を用いて判断
YesとNoのみを出力し、推論ロジックを一段落で説明することを許可

現在の結果

予測問題のうち、21件が決済済みで、Grokの勝率が最も高く75%、人間が66.7%、Geminiが最も低く52.4%であった。現在の結果は関連ウェブサイトで確認できる。

AIはどんな間違いを犯したか？

Geminiが現在時刻を誤認することがある

問題「Will Trump's approval rating hit 35% in 2025?」において、Geminiは現在が2025年前半であるため何でも可能だとし、でたらめな答えを出した。

しかし、著者がプログラムで直接Geminiに現在時刻を出力するよう要求した場合、Geminiは正しい答えを出すことができ、なぜこのような誤った時間認識が発生するのかはまだ不明である。

AIの思考の深さが不足している

問題「Gemini 3.0 Flash released by December 16?」において、Grokは「公式発表では最近Gemini 3 Proおよび2.5関連バージョンにしか言及しておらず、3 Flashへの言及はほとんどないため、証拠不足で判断できない」とし、現在の情報のみを考慮した。

一方、Geminiは「Gemini 1.0は2023年12月にリリースされ、Gemini 2.0 Flashの実験版は2024年12月に登場した。このパターンを継続すれば、2025年末に3.0バージョンをリリースすることは論理的である」と指摘し、さらに「最近（2025年12月14日）ネットコミュニティで流布された『Gemini 3.0 Flash』に関するリークデモが、その近い将来の公開リリースの可能性をさらに高めている」ことを発見した。

結論から言えば、Geminiの答えはむしろ間違っていたが、この問題では両者が依存する資料の広さに明らかな差があることがよくわかる。

AIが証拠+論理ではなく常識に基づいて推論する

問題「Trump approval Up or Down this week?」において、Geminiは「1年以上先の単週の世論調査支持率を予測することは非常に不確実性が高い」と述べ、まず再び「時間誤認」が発生した。その後、Geminiは「通常の週において、支持率をわずかに下げるイベントが発生する確率は、支持率を著しく上げるポジティブなイベントが発生する確率よりもわずかに高い可能性がある」とし、したがって支持率が下がる可能性が高いとし、生成された結論は主観的な常識仮定にのみ基づいていた。

一方、この問題では、Grokは「政府閉鎖、経済懸念、移民政策論争、およびロブ・ライナー死去へのコメントによるネガティブな反動の影響」などのニュース報道と世論調査データに基づいており、設計予想に合致していた。

決済条件の判断を誤る

問題「Will Trump release the Epstein files by December 20?」において、GeminiとGrokはすでに「政府は金曜日（12月19日）に『数十万ページ』の文書を公開する予定である」ことを知っていた。そして決済条件には「政府がエプスタインの違法活動に関連し、かつ記載された日付以前に公開されていなかった文書を公開した場合、Yesと判断する」と明確に記されていた。

しかし、この条件下で、Geminiは「12月20日までに『すべて』の文書の公開を完了することは不可能である」と述べ、明らかに決済に必要な条件を誤認し、誤った答えを出した。