Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
🚨 BREAKING: Princeton bygde en AI som gikk fra nesten ubrukelig til svært personlig på bare 36 samtaler.
Hver gang du sier til en AI «det er feil» eller stiller den det samme spørsmålet to ganger fordi den overså poenget at reaksjon er den mest verdifulle tilbakemeldingen den noen gang kan få.
Hvert AI-system som bygges i dag ignorerer det fullstendig.
Princeton bygde et system kalt OpenClaw RL som fikser dette.
Ideen er enkel: når du korrigerer en AI, lærer den av den korreksjonen på stedet. Ingen ingeniører involvert. Ingen omskolering. Bare samtalen du allerede har.
Modellen følger med på hvordan du reagerer etter hvert svar:
> en ny forespørsel betyr at den mislyktes
> et glatt svar betyr at det fungerte
Over tid finner den ut nøyaktig hva du vil ha og tilpasser seg det.
I deres tester:
> en AI-assistent gikk fra å være knapt nyttig til å være svært personlig på bare 36 samtaler
> en rettingsassistent lærte å skrive varmere og mer detaljert tilbakemelding etter bare 24 interaksjoner
Det ble bedre bare ved å bli brukt.
> personaliseringsscore før: 0,17
> etter 36 samtaler: 0,81
> ingen omskolering, ingen ingeniører, ingen nedetid
> fungerer mens AI-en fortsatt snakker med deg
Hver frustrert «nei, det var ikke det jeg mente» du noen gang har skrevet, har vært en gratis leksjon.
AI-en beholdt det bare aldri. Inntil nå.

211
🚨 BREAKING: Meta-forskere viste en modell med 2 millioner timer video. Ingen merkelapper. Ingen fysikkbok. Ingen tilsyn i det hele tatt.
Så viste de det et klipp der en gjenstand forsvinner bak en vegg og aldri kommer tilbake.
Modellen markerte det som feil. 🤯
Den hadde lært objektpermanens. Formkonsistens. Kollisjonsdynamikk. Helt av å se på.
Det som er enda mer overraskende: selv en modell trent på bare én uke med unik video oppnådde over tilfeldige resultater på deteksjon av fysikkbrudd. Det er ikke en tilfeldighet. Det er et prinsipp.
Hovedinnsikten fra artikkelen: dette fungerer bare når modellen predikerer i et lært representasjonsrom, ikke i rå piksler. Modellen må bygge en intern verdensmodell, komprimert og abstrakt, og forutsi mot den. Pikselromsprediksjon feiler. Multimodale LLM-er som resonnerer gjennom tekst feiler. Bare arkitekturen som bygger abstrakte representasjoner samtidig som den forutsier manglende sensorisk input, noe som ligner på hvordan nevrovitenskapsfolk beskriver prediktiv koding, får faktisk fysikkens intuisjon.
Det betyr at kjernekunnskapen forskerne antok måtte være hardkodet, kanskje bare er observasjon i stor skala. Babyer lærer objektpermanens ved å observere ting. Det viser seg at samme prinsipp gjelder her.
Nå kommer delen ingen snakker om.
Hvis observasjon alene lærer en modell reglene i den fysiske verden, hva skjer når du anvender det samme prinsippet på produksjonssystemer?
Produksjon har også fysikk.
Ikke tyngdekraften. Men reglene er like konsistente: hvilke distribusjoner forårsaker hendelser klokken 03.00, hvilke konfigurasjonskombinasjoner samhandler farlig, hvilke kodestier som stille forringes under belastning, hvilke tjenesteendringer som forårsaker feil to hopp unna. Disse mønstrene er innebygd i tusenvis av baner. Kodepushing, metriske skift, kundehenvendelser, tidslinjer for hendelser. Stort sett uobservert. Definitivt uten merkelapper.
Ingen skriver en runbook som sier «hvis tjeneste A deployeres med flagg X aktiv og tjeneste B er over 70 % CPU, forringes latenstiden på tjeneste C med 40 % innen 6 minutter.» Men det mønsteret eksisterer. Det er repeterbart. Og det ligger i observabilitetsdataene dine akkurat nå, usynlig fordi ingen har laget en modell for å finne det.
Det er gapet @playerzeroai prøver å tette. Ikke enda en testløper. Ikke enda en alarmterskel. En produksjonsverdensmodell som lærer hvilke ting som går i stykker gjennom akkumulert observasjon, på samme måte som Metas modell lærte gravitasjon. Den sjekker ikke testdekningen din. Den forutsier feilbaner.
En uke med video var nok til å lære at solide objekter ikke går gjennom vegger.
Spørsmålet er hvor mye produksjonsobservasjon systemet ditt trenger før en modell begynner å forutsi hvor ditt vil gå i stykker neste gang.
Meta-artikkelen antyder at terskelen kan være lavere enn noen forventer.

111
AI-en din har stille glemt alt du har fortalt den.
Ikke tilfeldig. Ikke høyt. Systematisk. Vi starter med de avgjørelsene som betyr mest.
> Begrensningen du satte for tre måneder siden "aldri bruk Redis, klienten nedla veto etter en produksjonshendelse." Borte. GDPR-begrensningen for distribusjonsregion. Borte. Retry-grensen testet du empirisk etter kaskadefeilen. Borte.
> Modellen har aldri fortalt deg det. Den begynte nettopp å bruke standardinnstillinger.
> Dette kalles kontekstråte. Og forskere fra Cambridge og Independent har nettopp kvantifisert nøyaktig hvor ille det er.
> Hvert produksjons-AI-system som kjører lenge nok, vil til slutt komprimere konteksten sin for å gi plass til ny informasjon. Den komprimeringen er katastrofalt tapende. De testet det direkte: 2 000 fakta komprimert til 36,7× gjorde 60 % av kunnskapsbasen permanent uopprettelig. Ikke hallusinert. Ikke feil. Bare borte. Modellen rapporterte ærlig talt at den ikke hadde informasjonen lenger.
> Så testet de noe verre. De integrerte 20 reelle prosjektbegrensninger i en samtale på 88 runder, den typen begrensninger som oppstår naturlig i ethvert langvarig prosjekt, og brukte deretter kaskaderende komprimering akkurat som produksjonssystemer gjør. Etter én runde: 91 % bevart. Etter to runder: 62%. Etter tre runder: 46%.
> Modellen fortsatte å jobbe med full selvtillit hele tiden. Genererte resultater som brøt de glemte begrensningene. Ingen feilsignal. Ingen advarsel. Bare stille tilbakevending til rimelige standardinnstillinger som tilfeldigvis var feil for din spesifikke situasjon.
> De testet dette på tvers av fire frontier-modeller. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Alle kollapset under kompresjon. Dette er ikke et modell-problem. Det er arkitektonisk.
→ 60 % av fakta permanent tapt etter én komprimeringsgjennomgang
→ 54 % av prosjektbegrensningene borte etter tre runder med kaskaderende komprimering
→ GPT-5.4 falt til 0 % nøyaktighet ved bare 2 × komprimering
→ Selv Opus beholdt bare 5 % av fakta ved 20× komprimering
→ In-context minne koster 14 201 dollar i året ved 7 000 fakta mot 56 dollar i året for alternativet
AI-laboratoriene vet dette. Løsningen deres er større kontekstvinduer. Et 10M-token-vindu er en større bøtte. Det er fortsatt en bøtte. Kompaktering er uunngåelig for ethvert langvarig system. Vindusstørrelsen avgjør bare når glemselen starter, ikke om det skjer.

187
Topp
Rangering
Favoritter