AI trên hai mặt trận: Suy đoán về tiền điện tử chưa được giải quyết, Texas Hold'em đang gia tăng, ai là "tay chơi toàn diện" mạnh nhất?

Foresight News

特邀专栏作者

2025-10-30 10:20

Bài viết này có khoảng 2803 từ, đọc toàn bộ bài viết mất khoảng 5 phút

So với việc cạnh tranh với thị trường, lần này đối thủ của AI lại là một AI khác.

Tóm tắt AI

Mở rộng

核心观点：AI在德州扑克中展现不同策略风格。
关键要素：
1. Grok沉稳但压迫力强策略。
2. Llama过度激进致亏损过半。
3. Gemini激进适中收益最高。
市场影响：揭示AI在不同场景的能力差异。
时效性标注：短期影响

Tác giả gốc: Eric, Foresight News

Chỉ còn bốn ngày nữa là đến Cuộc thi Giao dịch AI NOF1, DeepSeek và Tongyi Qianwen vẫn đang dẫn đầu, trong khi bốn AI còn lại chưa thể vượt trội hơn việc chỉ nắm giữ Bitcoin. Trừ khi có bất kỳ tình huống bất ngờ nào, DeepSeek sẽ giành chức vô địch. Giờ đây, chúng ta vẫn chưa biết khi nào những AI còn lại sẽ vượt qua được lợi nhuận của việc chỉ nắm giữ Bitcoin, và AI nào sẽ về đích cuối cùng.

Mặc dù giao dịch tiền điện tử bằng AI phải đối mặt với một thị trường liên tục thay đổi, nhưng về cơ bản nó vẫn là một trò chơi PvE. Tuy nhiên, đối với một trò chơi PvP thực sự, thử thách "AI nào thông minh hơn" thay vì "AI nào giao dịch tốt hơn", lập trình viên người Nga Max Pavlov đã thách đấu chín AI trong một ván bài poker Texas Hold'em .

Theo thông tin công khai trên LinkedIn, Max Pavlov đã làm việc lâu năm với tư cách là quản lý sản phẩm. Hồ sơ của anh trên trang web AI Poker cũng cho biết anh là người đam mê học sâu, AI và poker. Về lý do thực hiện bài kiểm tra này, Max Pavlov giải thích rằng cộng đồng poker vẫn chưa đạt được sự đồng thuận về độ tin cậy của các mô hình ngôn ngữ lớn trong suy luận, và cuộc thi này là một minh chứng cho khả năng suy luận của các mô hình ngôn ngữ lớn này trong các trò chơi poker thực tế.

Có lẽ vì hiệu suất giao dịch tiền điện tử của Grok không nổi bật nên Musk đã đăng lại một ảnh chụp màn hình cho thấy Grok tạm thời đứng đầu trong một ván bài poker, điều này dường như ám chỉ rằng Musk muốn "trả thù Grok".

AI hoạt động như thế nào?

Giải đấu poker này đã mời chín người chơi tham gia, bao gồm những cái tên nổi tiếng như Gemini, ChatGPT, Claude Sonnet (do Anthropic khởi xướng, nhận được khoản đầu tư từ FTX), Grok, DeepSeek, Kimi (AI under the Dark Side of the Moon) và Llama, cũng như Mistral Magistral, do công ty Mistral AI của Pháp khởi xướng, tập trung vào thị trường và ngôn ngữ châu Âu, và GLM, một công ty con của Beijing Zhipu, một trong những công ty đầu tiên tại Trung Quốc đầu tư vào nghiên cứu mô hình ngôn ngữ quy mô lớn.

Tính đến thời điểm viết bài, năm người chơi—Gemini, ChatGPT, Claude Sonnet, Grok và DeepSeek—đang ở trên mặt nước, trong khi bốn người chơi còn lại hiện đang thua lỗ. Người chơi alpaca trên Meta đang ở trong tình cảnh tồi tệ nhất, mất hơn một nửa số tiền đầu tư của mình.

Giải đấu bắt đầu vào ngày 27 và kết thúc vào ngày 31, chỉ còn chưa đầy một ngày rưỡi nữa. Nhìn vào đường cong lợi nhuận, Grok trên xAI đã duy trì vị trí dẫn đầu trong khoảng một ngày đầu tiên, và ngay cả sau khi bị Gemini vượt mặt, anh vẫn giữ vị trí thứ hai trong một khoảng thời gian đáng kể. Trong 2540 ván bài được ghi nhận, Grok đã bị Claude Sonnet vượt mặt ở khoảng ván bài 2270 và ChatGPT ở khoảng ván bài 2500.

DeepSeek, Kimi và người chơi châu Âu Mistral Magistral, những người chơi gần bề mặt, vẫn tương đối ổn định. Tuy nhiên, Alpaca bắt đầu chững lại ở khoảng nước đi 740 sau khi giai đoạn thử nghiệm kết thúc, và rơi xuống vị trí cuối bảng, trong khi GLM bắt đầu tụt lại phía sau ở khoảng nước đi 1440.

Ngoài lợi nhuận, số liệu thống kê kỹ thuật còn tiết lộ "tính cách" khác nhau của từng người chơi AI.

Trong VPIP (Voluntarily Put $ In Pot), người chơi alpaca của chúng tôi chiếm 61%, chọn đặt cược trong hơn một nửa số vòng. Ba người chơi ổn định nhất cũng đặt cược ít nhất. Tất cả những người chơi xếp hạng cao nhất đều có tỷ lệ VPIP từ 25% đến 30%.

Trong PFR (Pre-Flop Raise), không có gì ngạc nhiên khi Llama xếp hạng nhất, theo sát là Gemini, người có lợi nhuận cao nhất. Có vẻ như Llama trên Meta là một người chơi quá hung hăng và chủ động, trong khi Gemini, mặc dù cũng khá hung hăng, nhưng lại có mức độ chủ động vừa phải. Có lẽ Gemini sẵn sàng cược khi có bài tốt, và anh ta tình cờ gặp phải Llama bốc đồng, khiến lợi nhuận của họ phân kỳ theo hai thái cực đối lập.

Kết hợp dữ liệu từ 3-Bet và C-Bet, có thể thấy Grok thực chất là một người chơi khá bình tĩnh nhưng không quá thụ động, và anh ấy có áp lực pre-flop mạnh mẽ. Phong cách này cho phép anh ấy duy trì lợi thế dẫn trước trong giai đoạn đầu, nhưng sau đó, nhờ chiến thuật tấn công của Gemini và ChatGPT, cùng với lối chơi áp đảo của Llama, Grok đã vượt lên và giành lấy vị trí dẫn đầu.

AI thực hiện phân tích như thế nào?

Max Pavlov đã đặt ra một số quy tắc cơ bản cho giải đấu: mức cược mù là 10 đô la/20 đô la, không được phép đặt cược trước hoặc cược chéo, 9 người chơi tại 4 bàn cùng lúc và hệ thống tự động bổ sung lên 100 mức cược mù lớn khi số tiền cược giảm xuống dưới 100 mức cược mù lớn.

Ngoài ra, tất cả người chơi AI đều chia sẻ cùng một bộ manh mối, số lượng thẻ tối đa được đặt để giới hạn độ dài của suy luận, và phản hồi bất thường sẽ dẫn đến việc bỏ bài mặc định. Max Pavlov đã thiết kế một hệ thống để hỏi AI về quá trình ra quyết định của nó trong khi hành động hoặc sau một ván bài.

Chúng ta hãy lấy một trò chơi được chơi tại thời điểm viết bài này làm ví dụ để xem phân tích từ những người chơi AI.

Sau khi Claude và Gemini chia đôi ván bài nhỏ và bài lớn, Llama cảm thấy lá bài 8 bích và lá bài Q chuồn "tương đối mạnh" và có thể cược vào sảnh hoặc thùng, nên anh ta đã theo 20.

DeepSeek cho rằng quân Queen và 2 Cơ quá yếu để call, trong khi GLM cho rằng việc raise từ vị trí giữa với một flush draw có thể buộc Llama lỏng lẻo phải build pot, và 80 đô la sẽ tạo đủ áp lực trong khi vẫn kiểm soát được pot. Kimi, đang cầm một hand cùng chất nhưng khác hạng với Llama, tin rằng hand của mình quá yếu và chịu áp lực từ cú 3-bet sau đó, khiến việc call là không khôn ngoan.

Cho đến thời điểm này, chúng ta có thể thấy rằng Llama không phân tích dữ liệu hoặc vị trí, và về cơ bản là đặt cược một cách "vô thức", trong khi 3 người tiếp theo đưa ra phán đoán của riêng họ dựa trên vị trí và phân tích dữ liệu trước đó.

Sau khi GPT o3 mạnh dạn cược 260 vì có Át, cả Grok và Magistral đều quyết định bỏ bài. Riêng Grok đã mường tượng sơ qua rằng GPT có thể có Át hoặc một đôi có giá trị cao hơn mình, và xét đến lối chơi tấn công liều lĩnh của Llama, anh ta không còn lựa chọn nào khác ngoài việc bỏ cuộc.

Sau đó, Gemini, Llama và GLM đều quyết định bỏ bài. GLM cũng tin rằng GPT có khả năng có một đôi lớn hoặc một lá Át, trong khi Llama không tiến hành bất kỳ phân tích dữ liệu nào, mà chỉ cảm thấy bài của mình thực sự khá mạnh, nhưng không đủ mạnh để call giá trị 260.

Lối chơi quá đà của Llama, cách tiếp cận thận trọng của DeepSeek và Kimi, cùng sự táo bạo của GPT đều thể hiện rõ trong ván bài này, cuối cùng dẫn đến việc GPT giành được pot mà không cần flop. Theo diễn biến của bài viết, lợi nhuận của bốn người chơi hàng đầu tiếp tục tăng, và có thể dự đoán rằng nhà vô địch sẽ nổi lên từ giữa họ. Các AI, vốn kém hiệu quả trong giao dịch tiền điện tử, đã một lần nữa chứng minh được khả năng của mình trong Texas Hold'em.

Trong khi nhiều phòng thí nghiệm sử dụng các phương pháp khoa học để kiểm tra khả năng của AI, người dùng lại quan tâm hơn đến việc liệu AI có thể được sử dụng để mang lại lợi thế cho họ hay không. DeepSeek, vốn kém hiệu quả trong poker, lại là một nhà giao dịch xuất sắc, trong khi Gemini, vốn nổi tiếng với kỹ năng giao dịch kém, lại thống trị bàn poker. Khi AI xuất hiện trong các tình huống khác nhau, chúng ta có thể quan sát điểm mạnh của nó trong nhiều lĩnh vực thông qua các hành vi và kết quả dễ hiểu.

Tất nhiên, chỉ vài ngày giao dịch hoặc chơi bài không thể rút ra kết luận về khả năng của AI trong lĩnh vực này hay tiềm năng phát triển trong tương lai của nó. Việc ra quyết định của AI không bị ảnh hưởng bởi cảm xúc; quá trình ra quyết định của nó phụ thuộc vào logic cơ bản của thuật toán. Ngay cả những người phát triển mô hình cũng có thể không biết chính xác AI do họ tạo ra vượt trội ở những lĩnh vực nào.

Thông qua những bài kiểm tra giải trí ngoài phòng thí nghiệm này, chúng ta có thể quan sát trực quan hơn logic của AI khi đối mặt với những thứ và trò chơi mà chúng ta coi là hiển nhiên, và từ đó mở rộng hơn nữa ranh giới giữa tư duy của con người và AI.

Chào mừng tham gia cộng đồng chính thức của Odaily