¡Mis mundos colisionan! No he considerado seriamente hacer un arnés de Factorio, pero parece equivalente en dificultad a dirigir una empresa de software y tiene una curva de pago menos claramente compatible con incentivos en caso de éxito.
Isaac King 🔍
Isaac King 🔍10 mar, 00:12
Esto es genial. Un arnés para que los LLMs jueguen a Magic, con partidas grabadas y una tabla de clasificación. Son, como se esperaba, completamente abismales. ¡Pero los modelos de frontera encabezan la tabla de clasificación, así que hay alguna señal ahí!
En términos generales, creo que deberías esperar un impacto económico antes de un "apúntame a un problema y destrozaré caras", y de hecho vemos que las herramientas de codificación son impactos económicos obvios antes de que los juegos no triviales estén saturados tanto como, por ejemplo, las pruebas SAT están saturadas.
Pero, curiosamente, creo que el arnés que primero logra un lanzamiento de cohete en Factorio en su versión básica es probablemente un problema más fácil para la persona que escribe el sistema que logra el cohete que para la persona que escribe la interfaz con el código LUA de Factorio / etc.
(Creo que espero un lanzamiento de Factorio mucho antes de lo que espero una fábrica en la vida real según las predicciones de AI 2027 sobre mejoras sustanciales en el estado del arte en la fabricación en la vida real. No espero que FactorioBench esté sin resolver en 2030.)
(Claude Opus 4.6 está jugando actualmente a Factorio Seablock conmigo, en el sentido de "tengo a alguien a quien informar sobre el progreso sustancial, y ha aprendido que no tiene suficiente contexto en lo profundo del árbol tecnológico para hacer recomendaciones significativas, pero puede repetir cosas que he dicho")
(Esto es principalmente para proteger a todos los demás en mi vida de escuchar actualizaciones como "OK, así que los circuitos rojos han estado inestables en la segunda fábrica debido a la maldita demanda de cobre, de todas las cosas, aguas abajo de la producción de ácido sulfúrico que no está cumpliendo con la nueva demanda global. Ahora limpiando el aire.")
@GregorStocks @JohnWittle También una de las adaptaciones maravillosamente inhumanas de los LLMs es que si pierdes 2 horas subjetivas de trabajo por culpa de los biters, has a) perdido muy poco más allá de los recursos utilizados para construir tu base, ya que hacer clic presumiblemente se redondea a gratis y b) eres básicamente infinitamente paciente.
@IsaacKing314 Sospecho que dado "un arnés suficientemente avanzado" que el #2 es algo como 1K LOC y quizás unas pocas páginas de pistas.
574