Xiaomi와 MiniMax가 동시에 대형 카드를 꺼내며, Agent 가격 경쟁이 본격적으로 시작되다

区块律动BlockBeats

特邀专栏作者

2026-03-20 04:00

이 기사는 약 2236자로, 전체를 읽는 데 약 4분이 소요됩니다

브랜드도, 홍보도 아닌, 8일 만에 개발자들의 발걸음을 이끌어냈다.

AI 요약

펼치기

핵심 관점: 중국 AI 기업 MiniMax와 Xiaomi가 최근 출시한 두 가지 Agent 대형 모델은 국제 최고 수준 모델보다 훨씬 낮은 API 가격으로 유사한 성능을 구현했으며, 이는 '자체 반복 진화'와 '대규모 파라미터'라는 두 가지 다른 기술 발전 경로를 대표합니다.
핵심 요소:
1. 뚜렷한 가격 우위: MiniMax M2.7과 MiMo V2-Pro의 API 출력 가격은 각각 1.2달러/백만 토큰, 3달러/백만 토큰으로, Claude Opus(25달러)의 1/21, 1/8 수준에 불과합니다.
2. 1군 진입 성능: SWE-bench 등 주요 Agent 벤치마크에서 두 모델의 성능은 Claude Sonnet, GPT-5.3-Codex와 같은 국제 최고 수준 모델과 미미한 차이를 보이며 '가격-성능 가위차'를 형성했습니다.
3. 완전히 다른 기술 경로: MiMo V2-Pro는 초조 단위 파라미터의 '힘으로 기적을 만든다'는 경로를 채택해 긴 문맥 처리 능력을 강화했고, M2.7은 '자체 반복 진화' 메커니즘에 중점을 두어 자율 최적화 순환을 통해 능력을 향상시켰습니다.
4. 차별화된 반복 전략: MiniMax는 소규모로 빠르게 전진하는 고빈도 반복(약 49일/버전)을 채택한 반면, Xiaomi는 파라미터와 아키텍처를 크게 도약시키는 장주기 반복을 선택했습니다.
5. 혁신적인 출시 전략: MiMo V2-Pro는 익명 모델 'Hunter Alpha'로 OpenRouter 플랫폼에서 8일간 블라인드 테스트를 진행하며 성능과 가격으로 대량의 호출을 유치하고 정상에 오른 후에야 정체를 공개했습니다.

3월 18일과 19일, 두 개의 중국 기업이 각각의 에이전트(Agent) 방향 대규모 언어 모델을 발표했습니다. 국내 AI 스타트업 MiniMax는 M2.7을 출시했고, 샤오미(Xiaomi)의 대규모 모델 팀 MiMo는 V2-Pro를 출시했습니다. 두 모델 모두 에이전트 벤치마크에서 글로벌 최상위 그룹에 진입했지만, 이들의 API 출력 가격은 각각 Claude Opus 4.6의 1/21과 1/8 수준입니다.

두 회사가 같은 주에 카드를 꺼냈지만, 손에 쥔 카드는 완전히 다릅니다. 이들은 에이전트 시대의 두 가지 다른 미래를 건 완전히 다른 두 가지 기술 경로를 대표합니다.

같은 시험, 1/17의 등록금

가장 직관적인 비교부터 살펴보겠습니다.

OpenRouter 및 각 회사의 공식 가격 페이지 데이터에 따르면, API 출력 가격(백만 토큰당) 기준으로 MiniMax M2.7은 1.2달러, MiMo-V2-Pro는 3달러입니다. 참고로 Claude Opus 4.6의 출력 가격은 25달러, GPT-5.2는 14달러, Claude Sonnet 4.6은 15달러입니다.

가격 차이는 수준급이지만, 성능 차이는 그렇지 않습니다. SWE-bench Verified(현재 코드 엔지니어링 능력을 측정하는 가장 주류 벤치마크)에서 MiMo-V2-Pro는 78%를 기록했고, Sonnet 4.6은 79.6%로, 차이는 2% 포인트 미만입니다. M2.7의 SWE-Pro 점수는 56.22%로 GPT-5.3-Codex와 비슷한 수준입니다. VIBE-Pro(엔드투엔드 프로젝트 전달 능력)에서 M2.7은 55.6%를 기록해 Opus 4.6 수준에 근접했습니다.

이 그래프의 핵심은 누가 높고 낮은지가 아닙니다. 각사의 벤치마크 체계가 완전히 일치하지 않으므로 직접 비교는 신중해야 합니다. 핵심은 그 '가격-성능 가위차'에 있습니다: 국산 에이전트 모델이 이미 같은 능력대에 진입했지만, 완전히 다른 가격대에 서 있습니다.

조(兆)급 파라미터 vs 자기 진화

가격은 단지 표면일 뿐입니다. 두 회사는 완전히 다른 두 장의 패를 꺼냈습니다.

MiMo-V2-Pro는 '규모의 힘으로 기적을 만든다'는 경로를 걸었습니다. 샤오미 공식 발표에 따르면, V2-Pro는 총 1조 개 이상의 파라미터를 보유하고 있으며, 활성화 파라미터는 420억 개, 100만 토큰의 초장기 문맥을 지원합니다. 그 핵심 혁신은 Hybrid Attention(혼합 주의 메커니즘)으로, 슬라이딩 윈도우 어텐션(SWA)과 글로벌 어텐션(GA)의 비율을 7:1로 조정했습니다. 이전 버전 V2-Flash는 5:1이었습니다. 이 아키텍처는 모델이 장문서, 다중 도구 병렬 호출 에이전트 시나리오를 처리할 때 더 안정적이게 합니다. PinchBench(에이전트 도구 호출 능력 평가)에서 MiMo-V2-Pro는 84%를 기록했습니다.

M2.7은 완전히 다른 길을 걸었습니다. MiniMax가 3월 18일 발표한 공식 기술 블로그에 따르면, M2.7의 파라미터 수는 공개되지 않았지만, '자기 반복 진화' 메커니즘을 보여주었습니다: 모델은 100회 이상의 최적화 루프를 자율적으로 실행하며, 실패 궤적 분석, 수정 계획, 자체 코드 아키텍처 수정, 평가 실행, 다시 루프를 거쳐 최종적으로 내부 평가 세트에서 30%의 성능 향상을 실현했습니다. MLE Bench Lite(머신러닝 경쟁 난이도 평가)의 22개 고난도 문제에서 M2.7은 금메달 9개, 은메달 5개, 동메달 1개를 획득하여 평균 메달 획득률 66.6%를 기록했습니다.

다섯 가지 차원에서 볼 때, 두 경로의 방향은 완전히 다릅니다: MiMo-V2-Pro는 문맥 길이와 코드 엔지니어링 차원에서 뚜렷한 우위를 점하는 반면, M2.7은 사무 자동화와 자기 반복 능력에서 거리를 벌립니다. MiniMax의 동일 기술 블로그에 따르면, M2.7은 GDPval-AA(사무 문서 처리 평가)에서 ELO 1495를 기록해 오픈소스 모델 중 1위를 차지했으며, 40개 이상의 복잡한 기술을 포괄하는 MM-Claw 테스트에서 97%의 기술 준수율을 유지했습니다.

5개월, 4개 버전

두 회사는 기술 경로뿐만 아니라 반복 주기도 완전히 다릅니다.

공개 발표 기록에 따르면, MiniMax는 2025년 10월 M2를 발표한 후 2026년 3월 M2.7을 발표하기까지 5개월 동안 4개의 버전을 반복했으며, 평균 49일마다 하나의 주요 버전을 출시했습니다. 그중 M2.5에서 M2.7까지의 간격은 약 30일에 불과했습니다.

샤오미 MiMo의 리듬은 다릅니다: 2025년 4월 MiMo-7B(70억 파라미터 오픈소스 추론 모델)를 발표하고, 같은 해 12월 V2-Flash(3090억 총 파라미터)를 발표한 후, 2026년 3월 V2-Pro(1조 총 파라미터)를 발표했습니다. 각 세대 간의 파라미터 규모 도약은 더 크지만, 버전 간격도 더 깁니다.

MiniMax는 작은 걸음으로 빠르게 달리는 방식을 선택했으며, 각 반복의 폭은 크지 않지만 빈도가 매우 높고, M2.7의 자기 반복 메커니즘 자체가 '지속적 진화'를 위해 설계되었습니다. 샤오미는 힘을 모아 일격을 가하는 방식을 선택했으며, 각 버전마다 파라미터 규모와 아키텍처의 대폭적인 도약이 이루어졌습니다.

익명 8일, OpenRouter 정상 등극

기술 경로 외에도, 샤오미의 출시 전략은 업계 관례를 깨뜨렸습니다.

로이터 통신(Reuters) 보도에 따르면, 3월 11일 Hunter Alpha라는 익명 모델이 글로벌 최대 API 집계 플랫폼 OpenRouter에 등장했습니다. 브랜드 보증도, 출시 행사도, 기술 블로그도 없었습니다. 그 API 가격은 극도로 낮았지만, 성능은 예상 외로 강력했습니다.

커뮤니티는 그 출처를 추측하기 시작했습니다. Republic World 및 여러 기술 매체 보도에 따르면, 가장 주류 추측은 DeepSeek V4였습니다. 왜냐하면 MiMo 팀 리더 뤄푸리(Luo Fuli)가 이전에 DeepSeek에서 연구 업무를 수행한 경험이 있었기 때문입니다. 호출량이 급증했고, 익명 기간 동안 총 호출량은 1조 토큰을 돌파하며 OpenRouter 주간 차트 1위에 올랐습니다.