ผู้เขียนต้นฉบับ: Eric, Foresight News
เหลือเวลาอีกสี่วันในการแข่งขันซื้อขาย AI NOF1 AI Trading Competition DeepSeek และ Tongyi Qianwen ยังคงนำอยู่ ขณะที่ AI ที่เหลืออีกสี่รายยังคงทำผลงานได้ไม่เหนือกว่าการถือครอง Bitcoin เพียงอย่างเดียว หากไม่มีเหตุการณ์ไม่คาดฝัน DeepSeek น่าจะคว้าแชมป์ไปได้ ตอนนี้ยังต้องรอดูว่า AI ที่เหลือจะทำผลงานได้ดีกว่าการถือครอง Bitcoin เพียงอย่างเดียวเมื่อใด และใครจะได้อันดับสุดท้าย
แม้ว่าการซื้อขายสกุลเงินดิจิทัลด้วย AI จะต้องเผชิญกับตลาดที่เปลี่ยนแปลงอยู่ตลอดเวลา แต่โดยพื้นฐานแล้วมันก็ยังคงเป็นเกม PvE อย่างไรก็ตาม สำหรับเกม PvP ที่แท้จริงที่ทดสอบว่า "AI ตัวไหนฉลาดกว่า" แทนที่จะเป็น "AI ตัวไหนเทรดได้ดีกว่า" แม็กซ์ พาฟลอฟ โปรแกรมเมอร์ชาวรัสเซีย ได้ท้าทาย AI เก้าคนให้มา เล่นเกมโป๊กเกอร์เท็กซัส โฮลเด็ม
จากข้อมูลที่เปิดเผยต่อสาธารณะบน LinkedIn แม็กซ์ พาฟลอฟ ทำงานเป็นผู้จัดการผลิตภัณฑ์มาเป็นเวลานาน โปรไฟล์ของเขาบนเว็บไซต์ AI Poker ยังระบุด้วยว่าเขาหลงใหลในการเรียนรู้เชิงลึก (Deep Learning), AI และโป๊กเกอร์ แม็กซ์ พาฟลอฟ อธิบายว่าเหตุผลในการทำการทดสอบนี้ ระบุว่าชุมชนโป๊กเกอร์ยังไม่สามารถบรรลุฉันทามติเกี่ยวกับความน่าเชื่อถือของแบบจำลองภาษาขนาดใหญ่ในการหาเหตุผล และการแข่งขันครั้งนี้ถือเป็นการแสดงให้เห็นถึงความสามารถในการหาเหตุผลของแบบจำลองภาษาขนาดใหญ่เหล่านี้ในเกมโป๊กเกอร์จริง

บางทีอาจเป็นเพราะผลงานของ Grok ในการซื้อขายสกุลเงินดิจิทัลไม่ได้โดดเด่นนัก เมื่อวานนี้ Musk จึงรีทวีตภาพหน้าจอที่แสดงให้เห็น Grok อยู่ในตำแหน่งที่ 1 ชั่วคราวในเกมโป๊กเกอร์ ซึ่งดูเหมือนว่าเขาต้องการ "เอาคืน Grok"
AI ทำงานได้อย่างไร?
การแข่งขันโป๊กเกอร์ครั้งนี้ได้เชิญผู้เล่นเก้าคนมาเข้าร่วม ซึ่งรวมถึงชื่อที่รู้จักกันดี เช่น Gemini, ChatGPT, Claude Sonnet (เปิดตัวโดย Anthropic ซึ่งได้รับการลงทุนจาก FTX), Grok, DeepSeek, Kimi (AI ภายใต้ด้านมืดของดวงจันทร์) และ Llama รวมถึง Mistral Magistral ที่เปิดตัวโดยบริษัท Mistral AI ของฝรั่งเศส ซึ่งเน้นที่ตลาดและภาษาของยุโรป และ GLM ซึ่งเป็นบริษัทในเครือของ Beijing Zhipu ซึ่งเป็นหนึ่งในบริษัทแรกๆ ในประเทศจีนที่ลงทุนในการวิจัยโมเดลภาษาขนาดใหญ่

ณ เวลาที่เขียนบทความนี้ มีผู้เล่นห้าคน ได้แก่ Gemini, ChatGPT, Claude Sonnet, Grok และ DeepSeek กำลังเล่นอยู่บนน้ำ ขณะที่ผู้เล่นอีกสี่คนที่เหลือกำลังขาดทุน ผู้เล่นอัลปาก้าบน Meta กำลังอยู่ในสถานการณ์ที่เลวร้ายที่สุด โดยสูญเสียเงินลงทุนไปมากกว่าครึ่งหนึ่ง

การแข่งขันเริ่มต้นในวันที่ 27 และจะสิ้นสุดในวันที่ 31 โดยเหลือเวลาอีกไม่ถึงหนึ่งวันครึ่ง เมื่อพิจารณาจากกราฟกำไร Grok บน xAI ยังคงรักษาตำแหน่งนำในวันแรกหรือประมาณนั้น และแม้จะถูกแซงโดย Gemini แต่เขาก็ยังคงครองอันดับสองอยู่เป็นระยะเวลานาน จากการลงเล่น 2,540 ครั้ง Grok ถูกแซงโดย Claude Sonnet ที่รอบ 2,270 ครั้ง และถูก ChatGPT แซงที่รอบ 2,500 ครั้ง
DeepSeek, Kimi และ Mistral Magistral ผู้เล่นจากยุโรป ซึ่งอยู่ใกล้พื้นผิวโลก ยังคงค่อนข้างทรงตัว อย่างไรก็ตาม Alpaca เริ่มชะงักเมื่อถึงตาที่ 740 หลังจากช่วงทดสอบสิ้นสุดลง โดยอยู่ในอันดับสุดท้าย ขณะที่ GLM เริ่มตกเป็นรองเมื่อถึงตาที่ 1440
นอกเหนือจากผลตอบแทนแล้ว สถิติทางเทคนิคยังเผยให้เห็น "บุคลิก" ที่แตกต่างกันของผู้เล่น AI แต่ละรายอีกด้วย

ใน VPIP (Voluntarily Put $ In Pot) ผู้เล่นอัลปาก้าของเรามีสัดส่วนถึง 61% โดยเลือกเดิมพันมากกว่าครึ่งหนึ่งของรอบ ผู้เล่น 3 อันดับแรกที่สม่ำเสมอที่สุดก็วางเดิมพันน้อยที่สุดเช่นกัน ผู้เล่นอันดับสูงสุดทั้งหมดมีอัตรา VPIP อยู่ระหว่าง 25% ถึง 30%
ในการเรสแบบ PFR (Pre-Flop Raise) นั้น Llama ขึ้นนำอย่างไม่น่าแปลกใจ ตามมาติดๆ ด้วย Gemini ซึ่งทำกำไรได้มากที่สุด ดูเหมือนว่า Llama ใน Meta จะเป็นผู้เล่นที่เล่นแบบรุกและรุกมากเกินไป ในขณะที่ Gemini แม้จะค่อนข้างรุก แต่ก็มีระดับการรุกในระดับปานกลาง บางที Gemini อาจเต็มใจเดิมพันเมื่อเขามีไพ่ดี และเขาบังเอิญเจอกับ Llama ที่หุนหันพลันแล่น ทำให้กำไรของทั้งคู่แตกต่างกันสุดขั้ว
เมื่อนำข้อมูลจาก 3-Bet และ C-Bet มารวมกัน จะเห็นว่า Grok เป็นผู้เล่นที่ค่อนข้างใจเย็นแต่ไม่ได้เล่นแบบพาสซีฟมากเกินไป และเขามีความกดดันก่อนฟล็อปอย่างมาก สไตล์การเล่นแบบนี้ทำให้เขารักษาความได้เปรียบไว้ได้ในช่วงต้นเกม แต่ต่อมากลยุทธ์การเล่นที่ดุดันของ Gemini และ ChatGPT ประกอบกับการเล่นที่เกินขอบเขตของ Llama ทำให้ Grok แซงหน้าและขึ้นเป็นอันดับหนึ่งได้สำเร็จ
AI ทำการวิเคราะห์อย่างไร?
Max Pavlov กำหนดกฎพื้นฐานบางประการสำหรับการแข่งขัน ได้แก่ บลายด์ $10/$20 ไม่อนุญาตให้มีการวางเงินก่อนหรือการวางเดิมพันแบบสแตรดเดิล ผู้เล่น 9 คนอยู่ที่ 4 โต๊ะพร้อมกัน และระบบจะเติมเงินเป็นบิ๊กบลายด์ 100 โดยอัตโนมัติเมื่อสแต็กลดลงต่ำกว่า 100 บิ๊กบลายด์
นอกจากนี้ ผู้เล่น AI ทุกคนจะใช้ชุดเบาะแสเดียวกัน มีการกำหนดจำนวนโทเค็นสูงสุดเพื่อจำกัดระยะเวลาในการคิดเหตุผล และการตอบสนองที่ผิดปกติจะส่งผลให้เกิดการพับไพ่แบบค่าเริ่มต้น แม็กซ์ พาฟลอฟ ออกแบบระบบเพื่อสอบถาม AI เกี่ยวกับกระบวนการตัดสินใจระหว่างการเล่นหรือหลังจากเล่นจบมือ
มาดูตัวอย่างเกมที่เล่นในขณะที่เขียนเพื่อดูการวิเคราะห์จากผู้เล่น AI กัน

หลังจากที่ Claude และ Gemini แยกไพ่บลายด์เล็กและใหญ่ Llama รู้สึกว่าไพ่ 8 โพดำและไพ่ควีนดอกจิกนั้น "แข็งแกร่งพอสมควร" และสามารถเดิมพันสเตรทหรือฟลัชได้ ดังนั้นเขาจึงเรียก 20

DeepSeek เชื่อว่าไพ่ควีนและไพ่ 2 of Hearts นั้นอ่อนเกินไปในตำแหน่งที่จะคอล ขณะที่ GLM เชื่อว่าการเรสจากตำแหน่งกลางด้วยไพ่ฟลัชดรอว์อาจทำให้ไพ่ลามะที่หลวมๆ กลายเป็นกองกลาง และเงิน 80 ดอลลาร์ก็น่าจะสร้างแรงกดดันได้มากพอที่จะทำให้กองกลางอยู่ในการควบคุม Kimi ซึ่งถือไพ่ดอกเดียวกันแต่มีอันดับตรงข้ามกับลามะ เชื่อว่าไพ่ของเขาอ่อนเกินไปและอยู่ภายใต้แรงกดดันจากการเดิมพัน 3 ครั้งต่อมา จึงตัดสินใจคอลอย่างไม่ฉลาดนัก
จนถึงจุดนี้ เราจะเห็นได้ว่า Llama ไม่ได้วิเคราะห์ข้อมูลหรือตำแหน่ง และเพียงแค่วางเดิมพัน "โดยไม่คิดอะไร" ในขณะที่อีก 3 คนถัดไปตัดสินใจด้วยตนเองโดยอิงจากตำแหน่งและการวิเคราะห์ข้อมูลก่อนหน้านี้

หลังจากที่ GPT o3 กล้าเดิมพัน 260 เพราะเขามีไพ่เอซ ทั้ง Grok และ Magistral เลือกที่จะหมอบ โดยเฉพาะ Grok ที่มีความคิดคร่าวๆ ว่า GPT อาจมีไพ่เอซหรือคู่ที่มีค่าสูงกว่าของเขา และเมื่อพิจารณาจากการเล่นที่ดุดันและบุ่มบ่ามของ Llama แล้ว เขาจึงไม่มีทางเลือกอื่นนอกจากยอมแพ้

หลังจากนั้น Gemini, Llama และ GLM ต่างก็เลือกที่จะหมอบ GLM ยังเชื่อว่า GPT น่าจะได้ไพ่คู่ใหญ่หรือเอซ ขณะที่ Llama ไม่ได้วิเคราะห์ข้อมูลใดๆ เพียงแต่รู้สึกว่าไพ่ในมือของเขาค่อนข้างแข็งแกร่ง แต่ยังไม่แข็งแกร่งพอที่จะเรียกค่า 260 ได้
การเล่นที่เกินจริงของลามะ แนวทางการเล่นที่รอบคอบของ DeepSeek และ Kimi และความกล้าของ GPT ล้วนปรากฏชัดในมือนี้ ส่งผลให้ GPT คว้าเงินกองกลางไปได้โดยไม่ต้องเสียเงินเลย เมื่อบทความนี้ถูกเผยแพร่ออกไป กำไรของผู้เล่นสี่อันดับแรกยังคงเพิ่มขึ้นอย่างต่อเนื่อง และคาดการณ์ได้ว่าแชมป์จะปรากฏตัวขึ้นท่ามกลางพวกเขา AI ที่ทำผลงานได้ต่ำกว่ามาตรฐานในการเทรดคริปโทเคอร์เรนซี ได้พิสูจน์ฝีมือของพวกเขาอีกครั้งในเท็กซัส โฮลเด็ม
แม้ว่าห้องปฏิบัติการหลายแห่งจะใช้วิธีการทางวิทยาศาสตร์เพื่อทดสอบความสามารถของ AI แต่ผู้ใช้กลับกังวลว่า AI จะสามารถนำไปใช้ประโยชน์ได้หรือไม่ DeepSeek ซึ่งเล่นโป๊กเกอร์ได้ไม่ดี กลับเป็นเทรดเดอร์ที่ยอดเยี่ยม ขณะที่ Gemini ซึ่งขึ้นชื่อเรื่องทักษะการเทรดที่ต่ำ กลับครองโต๊ะโป๊กเกอร์ เมื่อ AI ปรากฏในสถานการณ์ต่างๆ เราจะสามารถสังเกตเห็นจุดแข็งของมันในด้านต่างๆ ผ่านพฤติกรรมและผลลัพธ์ที่เข้าใจได้
แน่นอนว่า การเล่นแลกเปลี่ยนหรือเล่นเกมไพ่เพียงไม่กี่วันก็ไม่สามารถสรุปความสามารถของ AI ในด้านนี้หรือวิวัฒนาการในอนาคตได้ การตัดสินใจของ AI ไม่ได้ขึ้นอยู่กับอารมณ์ แต่กระบวนการตัดสินใจขึ้นอยู่กับตรรกะพื้นฐานของอัลกอริทึม แม้แต่นักพัฒนาโมเดลก็อาจไม่ทราบแน่ชัดว่า AI ที่พวกเขาสร้างขึ้นนั้นมีความโดดเด่นในด้านใด
การทดสอบที่สนุกสนานเหล่านี้ซึ่งก้าวออกไปนอกห้องทดลอง ช่วยให้เราสังเกตตรรกะของ AI ได้อย่างสัญชาตญาณมากขึ้นเมื่อต้องเผชิญกับสิ่งของและเกมที่เราไม่เคยคิดมาก่อน และในทางกลับกัน ขยายขอบเขตความคิดของมนุษย์และ AI ออกไปอีก
- 核心观点:AI在德州扑克中展现不同策略风格。
- 关键要素:
- Grok沉稳但压迫力强策略。
- Llama过度激进致亏损过半。
- Gemini激进适中收益最高。
- 市场影响:揭示AI在不同场景的能力差异。
- 时效性标注:短期影响


