BTC
ETH
HTX
SOL
BNB
查看行情
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

PinchBench基準測試:Gemini 3 Flash在OpenClaw任務中以95.1%領先AI大模型

2026-03-08 03:27

Odaily星球日報訊 慢霧 CISO 23pads 在 X 平台發文表示,PinchBench 基準測試評估 AI 大語言模型在 OpenClaw 代理任務中的表現,結果顯示 Gemini 3 Flash 處理 OpenClaw 任務成功率以 95.1% 領先,minimax-m2.1、kimi-k2.5 則分別以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 則為 92.7%,GPT-4o 為 85.2%。