Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hamsa Bastani
Prof. @Wharton @Penn; strojové učení pro zdraví a sociální dobro; gurmán, hráč, domácí člověk
🚨🚨 Těšíme se, že se můžeme podělit o naše první *pozitivní* výsledky v oblasti AI ve vzdělávání!
Většina práce AI lektorů se zaměřuje na zlepšení chatbota. Navrhujeme další páku: rozhodnout, co by měli studenti dále procvičovat, aby se učení zlepšilo.
Kombinujeme lektora LLM s posilovaným učením, abychom personalizovali sekvenování úloh pomocí signálů z interakcí student-chatbot a pokusů o řešení.
Testovali jsme to v pětiměsíčním randomizovaném terénním experimentu v kurzu Pythonu na 10 středních školách v Tchaj-peji. Všichni studenti měli stejný materiál a stejného AI lektora. Jediný rozdíl byl v adaptivním vs. fixním sekvenování problémů.
Výsledek: u 770 studentů zlepšilo adaptivní sekvenování výkon na prezenční závěrečné zkoušce bez pomoci AI o 0,15 SD, s většími dopady pro začátečníky. Naše důkazy naznačují, že přínosy přišly díky silnějšímu zapojení a produktivnějšímu využívání AI.

206
Chtěl jsem upřesnit několik upřesnění, která podle nás byla jasná v našem článku, ale ne v mém původním příspěvku (opětovná analýza @METR_Evals dat).
Naším příspěvkem je prezentovat pokrok jako multiplikativní produkt sigmoidů kolem různých inovací. Na základě dat z METR jsme je rozdělili na zlepšení základních schopností (velikost dat/modelu) a uvažování.
Ukazujeme, že tento produkt poskytuje podobný *in-sample* přizpůsobení malým datovým sadám, které pozorujeme jako exponenciální růst. Nicméně důsledky jsou velmi odlišné! Podle našeho modelu bychom potřebovali pokračující inovace (podobné uvažování), abychom viděli pokračující exponenciální pokrok.
To neznamená, že vylučujeme exponenciální pokrok, nebo že náš součin sigmoidů je správný model. Jednoduše říkám, že existuje málo bodů a více možných základních modelů s velmi odlišnými důsledky.
Náš produktový sigmoid fit vlastně velmi dobře sedí, když držíme GPT 5.2 a/nebo Gemini 3 pro. Vypadáme hůř, když navíc držíme Claude Opus 4.5, ale stále je to věrohodné. Naším cílem není hádat se o OOS metrikách na základě několika datových bodů, ale poukázat na to, že stávající předpovědi jsou křehké a nemodelují řadu různých inovací. (Kolem X se pohybuje pár dalších sigmoidu, ale nezdá se, že by používaly náš navrhovaný produktový sigmoid, takže nemohu říct, co se tam děje...)
Omlouvám se za svůj nevýrazný předchozí příspěvek – doufáme, že si lidé článek přečtou!

Hamsa Bastani6. 2. 2026
AKTUALIZACE: tady je náš pohled na Time Horizon 1.1. Shrnutí; DR Předkládáme model, který odděluje základní a logické schopnosti, což ukazuje rozumnější předpovědi. Tento model sestavujeme daty až do Claude Opus 4.5 a předpovídáme GPT-5.2
@TomCunningham75
@joel_bkr

243
AKTUALIZACE: tady je náš pohled na Time Horizon 1.1. Shrnutí; DR Předkládáme model, který odděluje základní a logické schopnosti, což ukazuje rozumnější předpovědi. Tento model sestavujeme daty až do Claude Opus 4.5 a předpovídáme GPT-5.2
@TomCunningham75
@joel_bkr


Hamsa Bastani5. 2. 2026
Už dosáhl pokroku v AI vrcholu?
Nedávná zpráva @METR_Evals vyvolala znepokojení tvrzením, že schopnosti AI rostou exponenciálně – zdvojnásobují se každých 7 měsíců.
Ale podporují data skutečně neomezený růst?
V našem novém článku tvrdíme, že odpověď je pravděpodobně "ne." 🧵👇

213
Top
Hodnocení
Oblíbené