BTC
ETH
HTX
SOL
BNB
View Market
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

PinchBenchベンチマーク:Gemini 3 FlashがOpenClawタスクで95.1%を達成しAI大規模言語モデルをリード

2026-03-08 03:27

Odailyの報道によると、SlowMistのCISOである23pads氏がXプラットフォームで投稿し、PinchBenchベンチマークがAI大規模言語モデルのOpenClawエージェントタスクにおけるパフォーマンスを評価した結果、Gemini 3 FlashがOpenClawタスクの処理成功率で95.1%を記録しトップに立ったことを明らかにした。minimax-m2.1とkimi-k2.5はそれぞれ93.6%、93.4%で2位と3位となった。Claude Sonnet 4.5は92.7%、GPT-4oは85.2%だった。