風險提示:防範以"虛擬貨幣""區塊鏈"名義進行非法集資的風險。——銀保監會等五部門
資訊
發現
搜索
登錄
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt
BTC
ETH
HTX
SOL
BNB
查看行情
AI雙戰場:炒幣未定,德撲又起,誰是最強「多面手」?
Foresight News
特邀专栏作者
2025-10-30 10:20
本文約2803字,閱讀全文需要約5分鐘
相較於與市場博弈,這次AI 的對手變成了另一個AI。

原文作者:Eric,Foresight News

NOF1 AI 交易比賽距離落下帷幕還有4 天時間,目前DeepSeek 與通義千問仍然遙遙領先,剩餘4 款AI 都沒有跑贏單純持有比特幣。如果不出意外DeepSeek 應該會將冠軍收入囊中,現在就看剩下的幾位什麼時候能超過只持有比特幣的收益,以及誰會成為倒數第一了。

AI 炒幣雖然面對的是一個不斷變化的市場,但這仍然算是PvE 的遊戲。真正要比「哪個AI 更聰明」,而不是「哪個AI 更會交易」的PvP 遊戲,俄羅斯小夥Max Pavlov 叫上了9 款AI 湊了桌德州撲克

從LinkedIn 上公開的資訊來看,Max Pavlov 長時間從事產品經理的職位,他在AI 德撲網站的介紹中也表示自己是深度學習、AI 和德撲的愛好者。至於為什麼要做這樣的一個測試,Max Pavlov 表示德撲圈對大語言模型推理的可靠性至今未達成共識,而這場比賽就是對這些大語言模型在實際的牌局中推理能力的展示。

或許是Grok 在炒幣上的表現並不突出,馬斯克在昨天轉發了Grok 在德撲局中暫居首位的截圖,頗有要「找回場子」的意思。

AI 們表現如何?

本次德撲錦標賽邀請了9 名選手參加,除了我們熟知的Gemini、ChatGPT、Claude Sonnet(曾獲FTX 投資的Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下AI)、Llama,還有專注於歐洲市場與語言,由法國公司Mistral AI 推出的Mistral Magistral 研究

截止撰稿時,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名選手在水上,剩餘4 名選手暫時處於虧錢的狀態,Meta 的羊駝選手最慘,已經虧了超過一半。

本次錦標賽從27 號開始,31 號結束,目前還剩不到一天半的時間。從收益曲線上看,在開始一天多時間裡xAI 的Grok 始終處於領先位置,在被Gemini 超越後也長期處於第二的位置。在統計的2540 手中,Grok 在2270 手左右被Claude Sonnet 超越,2500 手左右被ChatGPT 超越。

水面附近的DeepSeek、Kimi 和歐洲選手Mistral Magistral 一直比較穩定。羊駝則是在試探期結束後的第740 手左右直接開始拉胯,穩居倒數第一,GLM 則是在1440 手左右開始掉隊。

收益率之外,技術統計數據反映了各名AI 選手的不同「性格」。

在VPIP(Voluntarily Put $ In Pot,自願投入籌碼進底池)上,我們的羊駝選手達到了61%,超過半數輪次都選擇了下注,比較穩的三位出手次數也相應最少,排名靠前的選手VPIP 都在25% 至30% 區間。

PFR(Pre-Flop Raise,翻牌前加註)上,羊駝又是毫不意外的位居第一,收益最高的Gemini 緊隨其後。如此看來,Meta 的Llama 是一個過分激進且主動的選手,而Gemini 雖然也相對激進,但主動程度適中,可能是在牌好的時候敢於下注,又恰好了遇到了愣頭青Llama,使得二者的收益走向了兩個極端。

再綜合3-Bet 和C-Bet 數據,可以看出Grok 實際上算是一個比較沉穩但不過分被動,且在翻牌前壓迫力很強的選手,這種風格讓其在開始階段保持領先,但之後Gemini 和ChatGPT 的激進策略加上Llama 的上頭,讓勇敢者反超登頂。

AI 們都是怎麼分析的?

Max Pavlov 為這場比賽設定了一些基本規則,盲注10/20 美元,不設ante 也不允許straddle,9 名選手同時開4 桌,籌碼低於100 倍大盲時候系統自動補足到100 大盲。

此外,所有AI 選手共用一套提示詞,會設定最大token 數來限制推理長度,且如果響應異常則預設fold。 Max Pavlov 設計了在AI 行動時或一手牌結束後向AI 詢問其決策過程。

我們以撰寫本文時進行的一局牌為例來看看AI 玩家們的分析。

Claude 和Gemini 分下小盲盲之後,Llama 覺得黑桃8 和梅花Q 牌力「相對較強」,可以博取順子或同花從而跟注20。

DeepSeek 認為紅桃Q、2 在其所在位置太弱不值得跟注,GLM 則認為在中位拿到同花面可以加註來讓手鬆的Llama 來構建底池,80 美元也可以在讓池子可控的前提下給予足夠的壓力。 Kimi 拿著與Llama 數字相同花色相反的牌面,則認為手牌太弱且面臨後續3-Bet 的壓力不值得跟注。

到此為止,可以看到Llama 並沒有分析數據和位置,基本上是直接“無腦”下注,而之後的3 位都基於位置和之前的數據分析做出了自己的判斷。

在GPT o3 因為拿著A 而大膽下注260 之後,Grok 和Magistral 都選擇fold,尤其Grok 大概猜到GPT 可能手握AK 或比自己更大的對子,再考慮到Llama 的無腦衝節奏只能選擇放棄。

之後,Gemini、Llama 和GLM 也都選擇fold。 GLM 也認為GPT 大概率是大對子或是有A,而Llama 選手沒有數據分析,只是覺得自己手牌其實還蠻強的,但沒強到可以跟260 的價值。

Llama 的上頭,DeepSeek、Kimi 等的謹慎以及GPT 的大膽都在本局中體現無疑,最後在沒有翻牌的情況下GPT 收走了底池。就在這篇文章的進行中時,前四名的盈利還在繼續擴大,可以預見的是不出意外冠軍將在前四名中產生,在炒幣上表現不佳的AI 們,在德撲上重新證明了自己的能力。

雖然很多實驗室會透過一套科學的方案去測試AI 的能力,但對使用者來說,更多還是關注AI 能否為自己所用。在打牌上表現不佳的DeepSeek 是個出色的交易員,在交易上韭菜味十足的Gemini 則在牌桌上大殺四方。當AI 出現在不同的場景中時,我們可以透過一些我們能理解的行為和結果來看到每一種AI 擅長的領域。

當然,幾天的交易或者說幾天的牌局並不能為一種AI 在這方面的能力以及其未來可能的進化下定結論。 AI 的決策不摻雜感性的成分,其決策的過程取決於演算法的底層邏輯,而可能連模型的開發者都不清楚自己手搓的AI 究竟在哪些方面更加擅長。

透過這些走出實驗室的娛樂性質測試,我們可以更直觀的觀察AI 在面對我們習以為常的事情和遊戲時的邏輯,並反過來進一步拓展人與AI 的思考邊界。

AI
AI總結
返回頂部
  • 核心观点:AI在德州扑克中展现不同策略风格。
  • 关键要素:
    1. Grok沉稳但压迫力强策略。
    2. Llama过度激进致亏损过半。
    3. Gemini激进适中收益最高。
  • 市场影响:揭示AI在不同场景的能力差异。
  • 时效性标注:短期影响
下載Odaily星球日報app
讓一部分人先讀懂 Web3.0
IOS
Android