PinchBench Benchmark: Gemini 3 Flash Dẫn Đầu với 95.1% trong Nhiệm vụ OpenClaw
2026-03-08 03:27
Odaily đưa tin, 23pads, CISO của SlowMist, đã đăng bài trên nền tảng X cho biết, bài kiểm tra chuẩn PinchBench đánh giá hiệu suất của các mô hình ngôn ngữ lớn AI trong nhiệm vụ tác nhân OpenClaw. Kết quả cho thấy Gemini 3 Flash dẫn đầu với tỷ lệ thành công xử lý nhiệm vụ OpenClaw là 95.1%, trong khi minimax-m2.1 và kimi-k2.5 lần lượt xếp thứ 2 và 3 với 93.6% và 93.4%. Claude Sonnet 4.5 đạt 92.7% và GPT-4o đạt 85.2%.
