quão bem o agente pi se sai com programação em comparação com o claude code/codex? alguém nota uma diferença na qualidade ao usar modelos em seu harness nativo em comparação com o pi? eu assumiria que os modelos nativos do seu harness teriam um desempenho melhor, mas não tenho certeza só curioso antes de começar