Matt Maher testou modelos de fronteira no caso Cursor v. outros arneses. O cursor aumentou o desempenho do modelo em média 11%: Gêmeos: 52% → 57% GPT-5,4: 82% → 88% Opus: 77% → 93% Seu benchmark mede o quão bem os modelos implementam um PRD com 100 recursos. @cursor_ai consistentemente superou.