Los benchmarks de PinchBench evalúan el rendimiento de grandes modelos de lenguaje de IA en tareas proxy de OpenClaw. Los resultados muestran que Gemini 3 Flash lidera con una tasa de éxito del 95,1% en el procesamiento de tareas OpenClaw, mientras que minimax-m2.1 y kimi-k2.5 ocupan el segundo y tercer puesto con un 93,6% y 93,4% respectivamente. Claude Sonnet 4,5 es del 92,7% y GPT-4o del 85,2%.