PinchBench 벤치마크: Gemini 3 Flash, OpenClaw 작업에서 95.1%로 AI 대형 언어 모델 선두
2026-03-08 03:27
Odaily 보도에 따르면, SlowMist의 CISO인 23pads가 X 플랫폼에 게시한 글에서 PinchBench 벤치마크가 OpenClaw 에이전트 작업에서 AI 대형 언어 모델의 성능을 평가한 결과, Gemini 3 Flash가 OpenClaw 작업 처리 성공률에서 95.1%로 선두를 차지했다고 밝혔습니다. minimax-m2.1과 kimi-k2.5는 각각 93.6%, 93.4%로 2, 3위를 기록했습니다. Claude Sonnet 4.5는 92.7%, GPT-4o는 85.2%였습니다.
