Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hamsa Bastani
Prof. @Wharton @Penn; uczenie maszynowe dla zdrowia i dobra społecznego; Foodies, gamer, domowy miłośnik
🚨🚨 Z radością dzielimy się naszymi pierwszymi *pozytywnymi* wynikami na temat AI w edukacji!
Większość prac nad AI dla tutorów koncentruje się na ulepszaniu chatbota. Proponujemy inny sposób: decydowanie, co uczniowie powinni ćwiczyć, aby poprawić naukę.
Łączymy tutora LLM z uczeniem przez wzmocnienie, aby spersonalizować sekwencjonowanie problemów, korzystając z sygnałów z interakcji ucznia z chatbotem oraz prób rozwiązań.
Testowaliśmy to w pięciomiesięcznym randomizowanym eksperymencie w terenie w kursie Pythona w 10 szkołach średnich w Tajpej. Wszyscy uczniowie mieli ten sam materiał kursowy i tego samego tutora AI. Jedyną różnicą było sekwencjonowanie problemów adaptacyjne vs. stałe.
Wynik: wśród 770 uczniów, adaptacyjne sekwencjonowanie poprawiło wyniki na egzaminie końcowym przeprowadzonym osobiście bez pomocy AI o 0,15 SD, z większymi efektami dla początkujących. Nasze dowody sugerują, że zyski pochodziły z silniejszego zaangażowania i bardziej produktywnego wykorzystania AI.

391
Chciałem wprowadzić kilka wyjaśnień, które naszym zdaniem były jasne w naszym artykule, ale nie w moim oryginalnym poście (ponownie analizując dane @METR_Evals).
Naszym wkładem jest postawienie tezy, że postęp jest iloczynem sigmoidalnym wokół różnych innowacji. Biorąc pod uwagę dane METR, dzielimy je na poprawy w podstawowych możliwościach (rozmiar danych/modelu) i rozumowaniu.
Pokazujemy, że ten iloczyn zapewnia podobne dopasowanie *w próbie* do małych zbiorów danych, które obserwujemy, jak wzrost wykładniczy. Jednak implikacje są bardzo różne! Zgodnie z naszym modelem, potrzebowalibyśmy ciągłych innowacji (podobnych do rozumowania), aby zobaczyć dalszy postęp wykładniczy.
To nie znaczy, że wykluczamy postęp wykładniczy, ani że nasz iloczyn sigmoidalny jest właściwym modelem. Chodzi po prostu o to, że istnieje kilka punktów i wiele możliwych modeli podstawowych z bardzo różnymi implikacjami.
Nasz iloczyn dopasowania sigmoidalnego faktycznie dobrze pasuje, gdy wykluczamy GPT 5.2 i/lub Gemini 3 pro. Wypadamy gorzej, gdy dodatkowo wykluczamy Claude Opus 4.5, ale nadal jest to prawdopodobne. Naszym celem nie jest spór o metryki OOS na garstce punktów danych, ale zwrócenie uwagi, że istniejące prognozy są kruche i nie modelują sukcesji różnych innowacji. (Jest kilka innych dopasowań krążących po X, ale nie wydaje się, aby używały naszego proponowanego iloczynu sigmoidalnego, więc nie mogę powiedzieć, co się tam dzieje...)
Przepraszam za mój wcześniejszy post bez niuansów – mamy nadzieję, że ludzie przeczytają artykuł!

Hamsa Bastani6 lut 2026
AKTUALIZACJA: oto nasze dopasowanie do Horyzontu Czasu 1.1. W skrócie, zakładamy model, który oddziela zdolności podstawowe i rozumowania, co skutkuje bardziej rozsądnymi prognozami. Dopasowaliśmy ten model do danych do Claude Opus 4.5 i prognozujemy GPT-5.2
@TomCunningham75
@joel_bkr

317
AKTUALIZACJA: oto nasze dopasowanie do Horyzontu Czasu 1.1. W skrócie, zakładamy model, który oddziela zdolności podstawowe i rozumowania, co skutkuje bardziej rozsądnymi prognozami. Dopasowaliśmy ten model do danych do Claude Opus 4.5 i prognozujemy GPT-5.2
@TomCunningham75
@joel_bkr


Hamsa Bastani5 lut 2026
Has AI progress already peaked?
The recent @METR_Evals report sparked alarm by claiming AI capabilities are growing exponentially—doubling every 7 months.
But does the data actually support indefinite growth?
In our new paper, we argue the answer is likely "no." 🧵👇

399
Najlepsze
Ranking
Ulubione