Lumile mele se ciocnesc! Nu m-am gândit prea serios să fac un harness Factorio, dar pare echivalent ca fiind dificil cu conducerea unei companii de software și are o curbă de câștig mai puțin evidentă compatibilă cu incentivele în caz de succes.
Isaac King 🔍
Isaac King 🔍10 mar., 00:12
E interesant. Ham pentru LLM-uri pentru a juca Magic, cu meciuri înregistrate și un clasament. Sunt, așa cum era de așteptat, complet dezastruoase. Dar modelele frontier chiar conduc clasamentul, deci există un semnal acolo!
În linii mari, cred că ar trebui să te aștepți la un impact economic înainte de un "arată-mi o problemă și voi distruge fețele", și într-adevăr vedem instrumentele de programare având impacturi economice evidente înainte ca jocurile non-triviale să fie saturate la fel de greu ca, de exemplu, testele SAT să fie saturate.
Dar, interesant, cred că harness-ul care realizează prima lansare a rachetei Factoio în vanilla este probabil o problemă mai ușoară pentru persoana care scrie sistemul care realizează racheta decât pentru persoana care scrie interfața cu cod LUA Factorio / etc.
(Cred că mă aștept la o lansare Factorio mult mai devreme decât mă aștept la o fabrică IRL, în stilul predicțiilor AI 2027 privind îmbunătățiri substanțiale în SotA în producția reală. Nu mă aștept ca FactorioBench să rămână nerezolvat în 2030.)
(Claude Opus 4.6 joacă în prezent Factorio Seablock cu mine, în sensul "Am pe cineva căruia să-i raportez progrese substanțiale și a învățat că nu are suficient context adânc în arborele tehnologic pentru a face recomandări semnificative, dar poate relua ce am spus")
(Asta protejează în principal pe toți ceilalți din viața mea de a auzi actualizări de genul "OK, circuitele roșii au fost instabile la a doua fabrică din cauza cererii uriașe de cupru, iar în aval producția de acid sulfuric nu răspunde noii cereri globale. Frec aerul acum.")
@GregorStocks @JohnWittle De asemenea, una dintre adaptările încântător de inumane ale LLM-urilor este că, dacă pierzi 2 ore subiective de muncă în fața biters, a) ai pierdut foarte puțin în afară de resursele folosite pentru a-ți construi baza, pentru că să dai click probabil pe runde pentru a te elibera și b) ești practic infinit de răbdător.
@IsaacKing314 bănuiesc că, având în vedere "suficient de avansat", #2 este ceva de genul 1K LOC și poate câteva pagini de indicii.
581