Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Mis mundos chocan!
No me he planteado del todo en serio hacer un arnés Factorio, pero parece equivalente en dificultad a dirigir una empresa de software y tiene una curva de recompensa menos obviamente compatible con incentivos en caso de éxito.

10 mar, 00:12
Esto es genial. Harness para que los LLMs jueguen a Magic, con partidas grabadas y una tabla de clasificación.
Son, como era de esperar, completamente pésimos. Pero los modelos Frontier encabezan la clasificación, ¡así que hay cierta señal!
En términos generales, creo que deberías esperar un impacto económico antes de un "señala un problema y destrozo caras", y de hecho vemos que las herramientas de programación tienen impactos económicos evidentes antes de que los juegos no triviales se saturen tanto como, por ejemplo, los exámenes SAT están saturados.
Pero curiosamente, creo que el arnés que primero consigue el lanzamiento de un cohete Factoio en la versión original probablemente sea un problema más fácil para la persona que escribe el sistema que logra el cohete que para quien escribe la interfaz con código LUA de Factorio, etc.
(Creo que espero un lanzamiento de Factorio mucho antes de lo que espero una fábrica presencial, al estilo de las predicciones de AI 2027 sobre mejoras sustanciales en SotA en la fabricación real.
No espero que FactorioBench quede sin resolver en 2030.)
(Claude Opus 4.6 está jugando actualmente a Factorio Seablock conmigo, en el sentido de "Tengo a alguien a quien informar de un progreso sustancial, y ha aprendido que no tiene suficiente contexto profundo en el árbol tecnológico para hacer recomendaciones significativas, pero puede repetir lo que he dicho")
(Esto es principalmente proteger a todos los demás en mi vida de escuchar actualizaciones como "Vale, los circuitos rojos han estado inestables en la segunda fábrica debido a la enorme demanda de cobre, de todas las cosas, y la producción de ácido sulfúrico aguas abajo no cubre la nueva demanda global. Ahora estoy fregando el aire.")
@GregorStocks @JohnWittle También una de las adaptaciones deliciosamente inhumanas de los LLMs es que si pierdes 2 horas subjetivas de trabajo con biters, a) has perdido muy poco más allá de los recursos usados para construir tu base, ya que presumiblemente hacer clic en rondas para liberar y b) es básicamente infinitamente paciente.
@IsaacKing314 sospecho que, dado el "arnés suficientemente avanzado", el #2 es algo así como 1.000 LOC y quizás unas cuantas páginas de pistas.
594
Populares
Ranking
Favoritas
