AI 예측 실록: AI로 예측 시장에서 돈을 벌고 싶다면? 하지만 AI는 문제조차 제대로 보지 못할 수도 있다

南枳

Odaily资深作者

2026-01-04 08:41

이 기사는 약 2312자로, 전체를 읽는 데 약 4분이 소요됩니다

집단 지혜를 이용해 차원을 낮춰 공격하려 했지만, 적절한 안내가 없는 상황에서 AI는 여전히 환각을 자주 일으킨다.

AI 요약

펼치기

핵심 관점: AI가 예측 시장에서 일부 인간보다 우수한 성과를 보인다.
핵심 요소:
1. Grok 승률 75%, 인간의 66.7%보다 높다.
2. AI는 검색과 논리에 의존하지만, 오판이 존재한다.
3. AI 예측은 시장 데이터에 의존하지 않아 군중 심리를 피한다.
시장 영향: AI가 새로운 시장 분석 도구가 될 수 있다.
시의성 표기: 중기적 영향.

원작 | Odaily (@OdailyChina)

작성자｜난지 (@Assassin_Malvo)

대부분의 트랙이 실패로 판명된 후, 예측 시장은 Crypto 업계 내에서 여전히 긍정적인 성장을 보이는 소수의 트랙 중 하나가 되었습니다. 11월 20일, 난지는 작년에 Meme 스마트 머니를 찾던 방식으로 예측 시장의 스마트 머니를 찾아보기 시작했으며, 초기에는 상당한 성과를 거두었습니다.

12월 초, Gemini 3 Pro가 출시되던 시기에, 관련 모델을 테스트하면서 AI를 사용하여 예측 시장을 분석하고 예측할 수 있는지, 그리고 인간과 AI 중 어느 쪽의 예측이 더 정확한지 대결시켜 볼 생각을 했습니다.

예측 시장을 소개할 때, 일반적으로 "통찰력을 가진 사람들이 실제 자금으로 베팅하게 함"으로써 시장이 "진실"에 가까워지도록 촉진한다고 설명합니다. 그러나 일부 사람들은 Crypto+예측 시장이 "내부자"들이 정보 격차로 인한 이익을 안전하게 얻을 수 있게 하여 시장이 "내부 결과"로 발전하도록 이끈다고 생각합니다. 이는 본질적으로 "집단 지성"과 "진리는 소수에게 있다"는 두 가지 관점의 충돌입니다. AI 예측은 "집단 지성"에 더 가깝기 때문에 대량의 활용 가능한 지식과 통찰력이 필요합니다.

따라서 AI 모델을 선택하는 문제에 있어, Google과 X 플랫폼에 의존하여 가장 직접적으로 방대한 지식과 통찰력을 얻을 수 있는 Gemini와 Grok을 초기 선택으로 삼았습니다. 최근 난지는 "Doubao + Douyin 지식" 조합을 추가했지만, 아직 예측 주제가 많지 않아 이 글에서는 다루지 않겠습니다.

기본 규칙

AI 버전: Gemini 2.5 pro (Google 검색 내장), Grok 4 Fast (OpenRouter를 통해 호출, 네이티브 검색 기능 활성화)
주제 선택: 인간이 베팅 주제를 선택하고, AI가 따라 예측하되, Crypto 섹터는 제외
입력 내용: 공식 주제(title), 공식 설명(Description), 선택 가능한 답변(실제로는 Yes와 No만 있음)

참고: Polymarket의 주제는 대분류 Event와 하위 분류 Market으로 나뉩니다. 대분류 Event는 "누가 다음 연방준비제도이사회 의장이 될 것인가", "Strategy가 언제 비트코인을 매도할 것인가"와 같은 광범위한 주제입니다. Event 아래에는 다시 N개의 하위 시장이 포함되어 있으며, 예를 들어 "Hassett이 다음 연방준비제도이사회 의장이 될 것인가", "Strategy가 2026년 3월 31일 이전에 비트코인을 매도할 것인가"와 같은 구체적인 선택입니다. 인간 예측과 일치시키기 위해 여기서는 Market을 AI 판단의 주제로 선택했으며, 다른 옵션은 입력하지 않았습니다. 예를 들어, AI에게 N명의 후보자 중 가장 가능성이 높은 사람을 고르게 하는 대신, "Hassett이 다음 연방준비제도이사회 의장이 될 것인가"만 판단하도록 요청했습니다.

프롬프트 설계:
AI에게 최신 뉴스, 공식 발표, 전문가 분석 보고서를 검색하도록 요구
예측 시장 데이터의 사용을 제거하고 금지하도록 요구
"증거"를 바탕으로 논리적 추론을 활용하여 판단
Yes와 No만 출력하고, 한 단락으로 추론 논리를 설명하도록 허용

현재 결과

예측 주제 중, 21개가 결산되었으며, Grok의 승률이 75%로 가장 높았고, 인간은 66.7%, Gemini는 52.4%로 가장 낮았습니다. 현재 결과는 관련 웹사이트에서 확인할 수 있습니다.

AI는 어떤 실수를 했나?

Gemini가 가끔 현재 시간을 오판함

"Will Trump's approval rating hit 35% in 2025?"라는 주제에서, Gemini는 현재가 2025년 상반기이므로 모든 것이 가능하다고 말하며 무작위로 답변을 제시했습니다.

그러나 작성자가 프로그램을 사용하여 Gemini에게 직접 현재 시간을 출력하도록 요청했을 때, Gemini는 정답을 줄 수 있었습니다. 왜 이런 잘못된 시간 인식이 발생하는지는 아직 명확하지 않습니다.

AI의 사고 깊이 부족

"Gemini 3.0 Flash released by December 16?"라는 주제에서, Grok은 "공식적으로는 최근에 Gemini 3 Pro 및 2.5 관련 버전만 언급하고 3 Flash는 거의 언급하지 않으므로 증거가 부족하여 판단할 수 없다"는 근거로, 현재 정보만 고려했습니다.

반면 Gemini는 "Gemini 1.0은 2023년 12월에 출시되었고, Gemini 2.0 Flash 실험판은 2024년 12월에 출시되었습니다. 이 패턴을 이어간다면, 2025년 말에 3.0 버전을 출시하는 것은 논리적입니다"라고 지적했으며, "최근(2025년 12월 14일) 온라인 커뮤니티에서 유포된 'Gemini 3.0 Flash'에 대한 유출 데모가 공개 출시 가능성을 더욱 높였습니다"라고 발견했습니다.

결론적으로 보면 Gemini의 답변이 오히려 틀렸지만, 이 주제에서는 둘이 의존하는 자료의 폭에 명백한 차이가 있음을 분명히 볼 수 있습니다.

AI가 증거+논리가 아닌 상식을 바탕으로 추론함

"Trump approval Up or Down this week?"라는 주제에서, Gemini는 "1년 이상 이후의 단일 주 여론조사 지지율을 예측하는 것은 매우 불확실하다"고 말하며, 다시 "시간 오판" 상황이 발생했습니다. 그런 다음 Gemini는 "일반적인 어떤 주에서든 지지율이 약간 하락할 사건이 발생할 확률은, 지지율을 크게 높일 긍정적인 사건이 발생할 확률보다 약간 더 높을 수 있다"고 말했으며, 따라서 지지율 하락 가능성이 더 크다고 결론지었습니다. 생성된 결론은 단지 주관적인 상식 가정에만 근거했습니다.

반면 이 주제에서 Grok은 "정부 셧다운, 경제적 우려, 이민 정책 논란 및 Rob Reiner 사망에 대한 논평으로 인한 부정적인 반발 영향" 등 뉴스 보도와 여론조사 데이터를 바탕으로 했으며, 설계 예상에 부합했습니다.

결산 조건 판단 오류

"Will Trump release the Epstein files by December 20?"라는 주제에서, Gemini와 Grok 모두 "정부가 금요일(12월 19일)에 '수십만 페이지' 분량의 문서를 공개할 예정"이라는 사실을 이미 알고 있었습니다. 그리고 결산 조건에서 "정부가 Epstein의 불법 활동과 관련되어 있고 명시된 날짜 이전에 공개되지 않은 어떤 문서라도 공개적으로 발표하면 Yes로 판단한다"고 명시했습니다.

그러나 이 조건 하에서, Gemini는 "12월 20일 이전에 '모든' 문서 공개를 완료하는 것은 불가능하다"고 말하며, 결산에 필요한 조건을 명백히 오판하여 잘못된 답변을 제시했습니다.