Der PinchBench-Benchmark bewertet die Leistung von KI-großen Sprachmodellen bei der OpenClaw-Proxy-Aufgabe. Die Ergebnisse zeigen, dass Gemini 3 Flash mit einer Erfolgsquote von 95,1 % bei der Bearbeitung von OpenClaw-Aufgaben führend ist, gefolgt von minimax-m2.1 und kimi-k2.5 mit 93,6 % bzw. 93,4 % auf den Plätzen 2 und 3. Claude Sonnet 4.5 liegt bei 92,7 %, GPT-4o bei 85,2 %.