Tolok ukur PinchBench mengevaluasi kinerja model bahasa besar AI dalam tugas proksi OpenClaw. Hasilnya menunjukkan bahwa Gemini 3 Flash memimpin dengan tingkat keberhasilan 95,1% dalam memproses tugas OpenClaw, sedangkan minimax-m2.1 dan kimi-k2.5 menempati peringkat kedua dan ketiga dengan masing-masing 93,6% dan 93,4%. Claude Sonnet 4.5 adalah 92.7%, dan GPT-4o adalah 85.2%.