Veo mucho "Antes nunca hacía exámenes, pero no, simplemente le digo a LLM que genere un traje completo". ¿Pero no es esto incorrecto? Pensando desde los primeros principios, si las pruebas son una prueba definitiva de que tu código funciona, deberías poner mucho esfuerzo manual en diseñar un buen traje de pruebas, y luego dejar que LLM elimine el código real de un solo golpe para satisfacer las pruebas. ¿Por qué la práctica común es al revés? Parece que en teoría el TDD debería prosperar en la codificación agentic-first, pero no es así. ¿Por qué?