원저자: 에릭, 포사이트 뉴스
NOF1 AI 트레이딩 대회가 4일 남은 가운데, DeepSeek과 Tongyi Qianwen은 여전히 크게 앞서고 있으며, 나머지 네 AI는 비트코인을 보유했을 때의 수익률을 뛰어넘지 못했습니다. 예상치 못한 상황이 발생하지 않는다면 DeepSeek이 우승을 차지할 것으로 예상됩니다. 이제 남은 AI들이 언제 비트코인을 보유했을 때의 수익률을 넘어설지, 그리고 누가 최후의 승자가 될지는 지켜봐야 합니다.
AI 암호화폐 거래는 끊임없이 변화하는 시장에 직면해 있지만, 본질적으로는 여전히 PvE 게임입니다. 하지만 "어떤 AI가 거래를 더 잘하는가"가 아니라 "어떤 AI가 더 똑똑한가"를 시험하는 진정한 PvP 게임을 위해, 러시아 프로그래머 막스 파블로프는 9명의 AI에게 텍사스 홀덤 포커 게임 에 도전했습니다.
LinkedIn에 공개된 정보에 따르면, 맥스 파블로프는 오랫동안 제품 관리자로 일해 왔습니다. AI 포커 웹사이트 프로필에도 딥 러닝, AI, 그리고 포커에 대한 열정이 언급되어 있습니다. 맥스 파블로프는 이 테스트를 실시한 이유에 대해 포커 커뮤니티가 추론 분야에서 대규모 언어 모델의 신뢰성에 대한 합의에 아직 도달하지 못했다고 설명하며, 이 대회가 실제 포커 게임에서 이러한 대규모 언어 모델의 추론 능력을 보여주는 시연의 역할을 한다고 설명했습니다.

아마도 그록의 암호화폐 거래 성과가 뛰어나지 않았기 때문에, 머스크는 어제 그록이 포커 게임에서 일시적으로 1위를 차지한 모습을 보여주는 스크린샷을 리트윗했는데, 이는 그가 "그록에게 복수하고 싶다"는 것을 암시하는 듯했다.
AI의 성능은 어떤가요?
이 포커 토너먼트에는 Gemini, ChatGPT, Claude Sonnet(FTX에서 투자를 받은 Anthropic에서 출시), Grok, DeepSeek, Kimi(달의 어두운 면 아래의 AI), Llama 등 잘 알려진 이름과 유럽 시장과 언어에 중점을 둔 프랑스 회사 Mistral AI에서 출시한 Mistral Magistral, 중국에서 가장 일찍 대규모 언어 모델 연구에 투자한 회사 중 하나인 Beijing Zhipu의 자회사인 GLM을 포함하여 9명의 선수가 참가했습니다.

이 글을 쓰는 시점을 기준으로 Gemini, ChatGPT, Claude Sonnet, Grok, DeepSeek 등 다섯 명의 플레이어가 손실을 보고 있으며, 나머지 네 명은 현재 손실을 보고 있습니다. Meta의 알파카 플레이어는 투자금의 절반 이상을 잃어 최악의 상황에 처해 있습니다.

토너먼트는 27일에 시작해서 31일에 끝나며, 하루 반도 채 남지 않았습니다. 수익 곡선을 살펴보면, xAI의 Grok은 첫날부터 선두를 유지했고, Gemini에게 추월당한 후에도 상당 기간 2위를 유지했습니다. 기록된 2540 핸드 중, Grok은 2270번째 핸드에서 Claude Sonnet에게, 2500번째 핸드에서 ChatGPT에게 추월당했습니다.
DeepSeek, Kimi, 그리고 수면 근처에 있던 유럽 플레이어 Mistral Magistral은 비교적 안정적인 상태를 유지했습니다. 그러나 Alpaca는 트라이얼 기간이 끝난 후 740수 부근에서 흔들리기 시작하여 최하위 자리를 차지했고, GLM은 1440수 부근에서 뒤처지기 시작했습니다.
수익 외에도 기술 통계는 각 AI 플레이어의 다양한 "성격"을 보여줍니다.

VPIP(Voluntarily Put $ In Pot)에서 알파카 플레이어들은 61%를 차지하며, 라운드의 절반 이상에서 베팅을 선택했습니다. 가장 꾸준한 성적을 기록한 세 명의 플레이어는 베팅 금액도 가장 적었습니다. 상위권 플레이어들의 VPIP 비율은 모두 25%에서 30% 사이였습니다.
PFR(프리플랍 레이즈)에서는 예상대로 라마가 1위를 차지했고, 그 뒤를 바짝 쫓는 쌍둥이자리가 가장 높은 수익을 올렸습니다. 메타에서 라마는 지나치게 공격적이고 적극적인 플레이어인 반면, 쌍둥이자리는 상대적으로 공격적이기는 하지만 적당한 수준의 적극성을 보입니다. 아마도 쌍둥이자리는 좋은 핸드를 가졌을 때 기꺼이 베팅을 했고, 우연히 충동적인 라마를 만나 수익이 정반대로 엇갈린 것일 수도 있습니다.
3-Bet과 C-Bet 데이터를 종합해 보면, Grok은 상대적으로 차분하지만 지나치게 수동적이지는 않은 플레이어이며, 강력한 프리플랍 압박을 가지고 있음을 알 수 있습니다. 이러한 스타일 덕분에 Grok은 초반에 리드를 유지할 수 있었지만, 이후 Gemini와 ChatGPT의 공격적인 전략과 Llama의 과장된 플레이가 결합되면서 Grok은 선두를 차지할 수 있었습니다.
AI는 어떻게 분석을 수행하나요?
막스 파블로프는 토너먼트에 대한 몇 가지 기본 규칙을 정했습니다. 블라인드는 $10/$20이고, 안티와 스트래들은 허용되지 않으며, 4개 테이블에 동시에 9명의 플레이어가 앉을 수 있고, 스택이 100빅 블라인드 아래로 떨어지면 시스템이 자동으로 100빅 블라인드로 채워집니다.
또한, 모든 AI 플레이어는 동일한 단서 세트를 공유하고, 추론 시간을 제한하기 위해 최대 토큰 수가 설정되어 있으며, 비정상적인 반응은 기본 포기로 이어집니다. 막스 파블로프는 AI에게 행동 중이나 핸드 후에 의사 결정 과정에 대해 질문하는 시스템을 설계했습니다.
이 글을 쓰는 시점에서 진행된 게임을 예로 들어 AI 플레이어의 분석을 살펴보겠습니다.

클로드와 제미니가 스몰 블라인드와 빅 블라인드를 나눈 후, 라마는 스페이드 8과 클럽 퀸이 "비교적 강하다"고 생각했고 스트레이트나 플러시에 베팅할 수 있다고 판단하여 20을 콜했습니다.

DeepSeek은 퀸과 하트 2가 자신의 포지션에서 너무 약해서 콜을 할 수 없다고 생각하는 반면, GLM은 플러시 드로우를 가지고 미들 포지션에서 레이즈하면 루즈한 라마가 팟을 키우도록 유도할 수 있으며, $80이면 팟을 안정적으로 유지하면서도 충분한 압박을 줄 수 있다고 생각합니다. 라마와 같은 무늬이지만 랭크가 반대인 핸드를 가진 키미는 자신의 핸드가 너무 약하고 후속 3벳의 압박을 받고 있다고 생각하여 콜을 하는 것은 현명하지 않다고 생각합니다.
지금까지 우리는 라마가 데이터나 포지션을 분석하지 않고 기본적으로 "무심코" 베팅을 했다는 것을 알 수 있고, 그 다음 3명은 포지션과 이전 데이터 분석을 바탕으로 자신의 판단을 내렸습니다.

GPT o3가 에이스를 가지고 있다는 이유로 과감하게 260을 베팅하자, Grok과 Magistral은 모두 폴드를 선택했습니다. 특히 Grok은 GPT가 에이스나 자신보다 더 높은 가치의 페어를 가지고 있을 거라고 대충 짐작했고, Llama의 무모하고 공격적인 플레이를 고려했을 때, 그는 포기할 수밖에 없었습니다.

그 후, 제미니, 라마, 그리고 GLM은 모두 폴드를 선택했습니다. GLM은 GPT가 빅 페어나 에이스를 가질 가능성이 높다고 생각했지만, 라마는 데이터 분석을 하지 않고, 단지 자신의 핸드가 꽤 강하지만 260이라는 가치를 콜할 만큼 강하지는 않다고 생각했습니다.
라마의 과장된 플레이, 딥식과 키미의 신중한 접근, 그리고 GPT의 대담함이 이 핸드에서 모두 드러났고, 결국 GPT는 플랍 없이 팟을 가져갔습니다. 이 글이 전개됨에 따라 상위 4명의 플레이어들의 수익은 계속해서 증가하고 있으며, 그중에서 챔피언이 등장할 가능성이 높습니다. 암호화폐 거래에서 부진했던 AI들은 텍사스 홀덤에서 다시 한번 그 능력을 입증했습니다.
많은 연구소에서 과학적 방법을 사용하여 AI 역량을 테스트하는 반면, 사용자들은 AI가 자신에게 유리하게 활용될 수 있는지에 더 큰 관심을 가지고 있습니다. 포커에서는 부진한 성적을 보이는 DeepSeek은 훌륭한 트레이더인 반면, 트레이딩 실력이 부족한 것으로 알려진 Gemini는 포커 테이블에서 압도적인 우위를 점하고 있습니다. AI가 다양한 시나리오에 등장할 때, 우리는 이해하기 쉬운 행동과 결과를 통해 다양한 영역에서 AI의 강점을 확인할 수 있습니다.
물론, 며칠간의 거래나 카드 게임만으로는 AI의 이 분야 역량이나 향후 발전 가능성에 대한 결론을 내릴 수 없습니다. AI의 의사 결정은 감정의 영향을 받지 않습니다. AI의 의사 결정 과정은 알고리즘의 기본 논리에 따라 결정됩니다. 심지어 모델 개발자조차도 자신이 직접 개발한 AI가 어떤 분야에서 탁월한지 정확히 알지 못할 수도 있습니다.
실험실 밖으로 나아가는 이러한 재미있는 테스트를 통해 우리는 당연하게 여기는 사물이나 게임에 직면했을 때 AI의 논리를 더욱 직관적으로 관찰할 수 있으며, 나아가 인간과 AI의 사고 경계를 더욱 확장할 수 있습니다.
- 核心观点:AI在德州扑克中展现不同策略风格。
- 关键要素:
- Grok沉稳但压迫力强策略。
- Llama过度激进致亏损过半。
- Gemini激进适中收益最高。
- 市场影响:揭示AI在不同场景的能力差异。
- 时效性标注:短期影响


