2つの戦線におけるAI：暗号通貨投機は未解決、テキサスホールデムは台頭、最強の「オールラウンダー」は誰か？

Foresight News

特邀专栏作者

2025-10-30 10:20

この記事は約2803文字で、全文を読むには約5分かかります

市場との競争と比べると、今回はAIの対戦相手が別のAIになった。

AI要約

展開

核心观点：AI在德州扑克中展现不同策略风格。
关键要素：
1. Grok沉稳但压迫力强策略。
2. Llama过度激进致亏损过半。
3. Gemini激进适中收益最高。
市场影响：揭示AI在不同场景的能力差异。
时效性标注：短期影响

原著者: エリック、フォーサイトニュース

NOF1 AIトレーディングコンペティションは残り4日となりましたが、DeepSeekとTongyi Qianwenは依然として大きくリードしています。一方、残りの4つのAIは、ビットコインを保有するだけの運用成績を上回ることができていません。不測の事態がない限り、DeepSeekが優勝するはずです。残りのAIがビットコインを保有するだけの運用成績を上回るのはいつになるのか、そして誰が最下位に沈むのか、今後の展開が注目されます。

AIによる仮想通貨取引は絶えず変化する市場に直面していますが、本質的にはPvEゲームです。しかし、「どのAIが取引に優れているか」ではなく「どのAIがより賢いか」を競う真のPvPゲームとして、ロシアのプログラマー、マックス・パブロフ氏は9台のAIにテキサスホールデムポーカーを挑みました。

LinkedInで公開されている情報によると、マックス・パブロフ氏は長年プロダクトマネージャーとして活躍しています。AI Pokerのウェブサイトに掲載されている彼のプロフィールにも、ディープラーニング、AI、そしてポーカーの愛好家であることが記されています。このテストを実施した理由について、マックス・パブロフ氏は、ポーカーコミュニティにおいて推論における大規模言語モデルの信頼性についてまだ合意に至っておらず、このコンテストは実際のポーカーゲームにおける大規模言語モデルの推論能力を実証するものであると説明しました。

おそらく、グロックの仮想通貨取引のパフォーマンスが目立ったものでなかったため、マスク氏は昨日、ポーカーゲームでグロックが一時的に首位に立っているスクリーンショットをリツイートし、「グロックに仕返ししたい」という意向を示しているようだ。

AIのパフォーマンスはどうですか?

このポーカートーナメントには、Gemini、ChatGPT、Claude Sonnet（FTXから投資を受けたAnthropicが立ち上げ）、Grok、DeepSeek、Kimi（Dark Side of the MoonのAI）、Llamaなどの有名企業のほか、ヨーロッパの市場と言語に重点を置くフランス企業Mistral AIが立ち上げたMistral Magistral、中国で大規模言語モデル研究に投資した最も初期の企業の一つである北京Zhipuの子会社GLMなど、9人のプレイヤーが参加しました。

本稿執筆時点で、Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeekの5プレイヤーが水上にいる一方、残りの4プレイヤーは現在損失を出しています。Metaのアルパカプレイヤーは投資額の半分以上を失っており、最悪の状況にあります。

トーナメントは27日に始まり、31日に終了する予定で、残りは1日半を切りました。利益曲線を見ると、xAIのGrokは最初の1日ほどはリードを維持し、Geminiに追い抜かれた後もかなりの期間2位を維持しました。記録された2540ハンドのうち、Grokは2270ハンドあたりでClaude Sonnetに、2500ハンドあたりでChatGPTに追い抜かれました。

DeepSeek、Kimi、そしてヨーロッパのプレイヤーMistral Magistralは上位につけており、比較的安定した成績を維持していました。しかし、Alpacaはトライアル期間終了後の740手目あたりで失速し始め、最下位に沈みました。一方、GLMは1440手目あたりから後れを取り始めました。

リターン以外にも、技術的な統計により、各 AI プレーヤーのさまざまな「個性」が明らかになります。

VPIP（自発的にポットに$を入れる）では、アルパカプレイヤーが61%を占め、ラウンドの半分以上でベットを選択しました。最も安定した成績を収めた3人のプレイヤーは、ベット回数も最も少なかったです。上位ランクのプレイヤーのVPIP率は、いずれも25%から30%でした。

PFR（プリフロップレイズ）では、予想通りラマが1位となり、僅差でジェミニが最大の利益を上げました。メタのラマは過度にアグレッシブで積極的なプレイヤーである一方、ジェミニは比較的アグレッシブではあるものの、積極性は中程度です。ジェミニは良いハンドを持っている時は積極的にベットするタイプで、たまたま衝動的なラマに遭遇したことで、両者の利益が正反対に乖離したのかもしれません。

3ベットとCベットのデータを組み合わせると、Grokは比較的冷静ではあるものの、過度に消極的ではなく、プリフロップでのプレッシャーが強いことがわかります。このスタイルにより、彼は序盤はリードを維持することができましたが、その後、GeminiとChatGPTのアグレッシブな戦略とLlamaのオーバーザトップのプレイが相まって、Grokは逆転し、トップの座を獲得しました。

AI はどのように分析を実行するのでしょうか?

マックス・パブロフはトーナメントの基本ルールを設定しました。ブラインドは 10/20 ドル、アンティやストラドルは禁止、9 人のプレイヤーが 4 つのテーブルに同時に参加、スタックが 100 ビッグブラインドを下回るとシステムが自動的に 100 ビッグブラインドに補充される、などです。

さらに、すべてのAIプレイヤーは同じ手がかりを共有し、推論の長さを制限するためにトークンの最大数が設定され、異常な応答があった場合はデフォルトでフォールドされます。マックス・パブロフは、AIのアクション中またはハンド後にAIの意思決定プロセスを尋ねるシステムを設計しました。

執筆時点でプレイされているゲームを使って、AI プレイヤーの分析を見てみましょう。

クロードとジェミニがスモールブラインドとビッグブラインドを分け合った後、ラマはスペードの8とクラブのクイーンが「比較的強い」と感じ、ストレートかフラッシュに賭けることができるので、20をコールしました。

DeepSeekは、クイーンとハートの2はコールするにはポジションが弱すぎると予測しています。一方、GLMは、ミドルポジションからのフラッシュドローによるレイズで、ルーズなラマにポットビルドを強いる可能性があり、80ドルであればポットをコントロールしつつ十分なプレッシャーをかけられると考えています。ラマと同じスーツだがランクが逆のハンドを持つキミは、自分のハンドが弱すぎると予測し、その後の3ベットからのプレッシャーも受けており、コールするのは賢明ではないと判断しています。

ここまで見てきたように、ラマはデータやポジションを分析せず、基本的に「無意識に」賭けを行っていたのに対し、次の 3 人はポジションとこれまでのデータ分析に基づいて独自の判断を下していました。

GPT o3がエースを持っていたため、大胆にも260をベットした後、GrokとMagistralは両者ともフォールドを選択しました。特にGrokは、GPTが自分よりも高い値のエースかペアを持っている可能性があると漠然と予想しており、Llamaの無謀なアグレッシブなプレイを考えると、諦めざるを得ませんでした。

その後、Gemini、Llama、GLMは全員フォールドを選択しました。GLMもGPTがビッグペアかエースを持っている可能性が高いと考えていましたが、Llamaはデータ分析を行わず、自分のハンドは実際にはかなり強いものの、260というバリューをコールするほど強くはないと単純に感じていました。

このハンドでは、Llamaのオーバーザトップのプレイ、DeepSeekとKimiの慎重なアプローチ、そしてGPTの大胆さが全て発揮され、最終的にGPTがフロップなしでポットを獲得しました。この記事が進むにつれて、上位4人のプレイヤーの利益は増加し続けており、その中からチャンピオンが誕生することが予想されます。仮想通貨取引では低迷していたAIたちは、テキサスホールデムで再びその実力を証明しました。

多くの研究機関が科学的な手法を用いてAIの能力をテストしていますが、ユーザーがより関心を寄せているのは、AIが自社の利益のために活用できるかどうかです。ポーカーでは成績が悪いDeepSeekは優れたトレーダーであり、トレードスキルの低さで知られるGeminiはポーカーテーブルを席巻しています。AIが様々なシナリオに登場すると、理解しやすい行動や結果を通して、様々な分野におけるAIの強みを観察することができます。

もちろん、数日間のトレーディングやカードゲームだけでは、AIのこの分野における能力や将来の進化の可能性について結論を導き出すことはできません。AIの意思決定は感情に左右されるのではなく、アルゴリズムの根底にあるロジックに依存します。モデルの開発者でさえ、自らが開発したAIがどの分野で優れているかを正確に把握していない可能性があります。

実験室の外に出て行うこうした楽しいテストを通じて、私たちが当たり前だと思っているものやゲームに直面したときの AI のロジックをより直感的に観察することができ、ひいては人間と AI の思考の境界をさらに広げることができます。

Odaily公式コミュニティへの参加を歓迎します