PinchBenchベンチマーク:Gemini 3 FlashがOpenClawタスクで95.1%を達成しAI大規模言語モデルをリード
2026-03-08 03:27
Odailyの報道によると、SlowMistのCISOである23pads氏がXプラットフォームで投稿し、PinchBenchベンチマークがAI大規模言語モデルのOpenClawエージェントタスクにおけるパフォーマンスを評価した結果、Gemini 3 FlashがOpenClawタスクの処理成功率で95.1%を記録しトップに立ったことを明らかにした。minimax-m2.1とkimi-k2.5はそれぞれ93.6%、93.4%で2位と3位となった。Claude Sonnet 4.5は92.7%、GPT-4oは85.2%だった。
