PinchBench Benchmark: Gemini 3 Flash นำ AI Large Models ด้วย 95.1% ใน OpenClaw Task
2026-03-08 03:27
Odaily รายงานว่า 23pads CISO ของ SlowMist โพสต์บนแพลตฟอร์ม X ระบุว่า การประเมินประสิทธิภาพของ AI Large Language Models ใน OpenClaw Agent Task โดย PinchBench Benchmark แสดงให้เห็นว่า Gemini 3 Flash นำด้วยอัตราความสำเร็จ 95.1% ในการจัดการ OpenClaw Task โดย minimax-m2.1 และ kimi-k2.5 อยู่ในอันดับที่ 2 และ 3 ด้วย 93.6% และ 93.4% ตามลำดับ Claude Sonnet 4.5 ได้ 92.7% และ GPT-4o ได้ 85.2%
