Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hamsa Bastani
Prof. @Wharton @Penn; il machine learning per la salute e il bene sociale; Amante del buongiorno, gamer, casalingo
🚨🚨 Siamo entusiasti di condividere i nostri primi risultati *positivi* sull'AI nell'istruzione!
La maggior parte del lavoro degli tutor AI si concentra sul migliorare il chatbot. Noi suggeriamo un altro fattore: decidere cosa gli studenti dovrebbero praticare successivamente per migliorare l'apprendimento.
Combiniamo un tutor LLM con l'apprendimento per rinforzo per personalizzare la sequenza dei problemi utilizzando segnali dalle interazioni studente-chatbot e dai tentativi di soluzione.
Abbiamo testato questo in un esperimento sul campo randomizzato di 5 mesi in un corso di Python in 10 scuole superiori di Taipei. Tutti gli studenti avevano lo stesso materiale del corso e lo stesso tutor AI. L'unica differenza era la sequenza dei problemi adattiva rispetto a quella fissa.
Risultato: su 770 studenti, la sequenza adattiva ha migliorato le prestazioni in un esame finale in presenza sostenuto senza assistenza AI di 0.15 SD, con effetti maggiori per i principianti. Le nostre evidenze suggeriscono che i guadagni sono derivati da un maggiore coinvolgimento e da un uso più produttivo dell'AI.

228
Volevo fare alcune chiarificazioni, che riteniamo fossero chiare nel nostro documento ma non nel mio post originale (ri-analizzando i dati di @METR_Evals).
Il nostro contributo è posizionare il progresso come un prodotto moltiplicativo di sigmoidi attorno a diverse innovazioni. Dati i dati METR, li abbiamo suddivisi in miglioramenti delle capacità di base (dimensione dei dati/modello) e ragionamento.
Mostriamo che questo prodotto fornisce un adattamento *in-sample* simile ai piccoli dataset che osserviamo come crescita esponenziale. Tuttavia, le implicazioni sono molto diverse! Sotto il nostro modello, avremmo bisogno di continue innovazioni (simili al ragionamento) per vedere un continuo progresso esponenziale.
Questo non significa che escludiamo il progresso esponenziale, o che il nostro prodotto di sigmoidi sia il modello giusto. È semplicemente per dire che ci sono pochi punti e molteplici possibili modelli sottostanti con implicazioni molto diverse.
Il nostro adattamento sigmoidale del prodotto si adatta molto bene quando escludiamo GPT 5.2 e/o Gemini 3 pro. Stiamo peggio quando escludiamo anche Claude Opus 4.5, ma è comunque plausibile. Il nostro obiettivo non è discutere sui metriche OOS su un pugno di punti dati, ma sottolineare che le previsioni esistenti sono fragili e non modellano la successione di diverse innovazioni. (Ci sono un paio di altri adattamenti che circolano su X, ma non sembrano utilizzare il nostro prodotto sigmoidale proposto, quindi non posso dire cosa stia succedendo lì...)
Mi scuso per il mio post precedente poco sfumato – speriamo che le persone leggano il documento!

Hamsa Bastani6 feb 2026
AGGIORNAMENTO: ecco il nostro adattamento su Time Horizon 1.1. In breve, proponiamo un modello che separa le capacità di base e di ragionamento, il quale mostra previsioni più ragionevoli. Abbiamo adattato questo modello con dati fino a Claude Opus 4.5 e prevediamo GPT-5.2
@TomCunningham75
@joel_bkr

266
AGGIORNAMENTO: ecco il nostro adattamento su Time Horizon 1.1. In breve, proponiamo un modello che separa le capacità di base e di ragionamento, il quale mostra previsioni più ragionevoli. Abbiamo adattato questo modello con dati fino a Claude Opus 4.5 e prevediamo GPT-5.2
@TomCunningham75
@joel_bkr


Hamsa Bastani5 feb 2026
I progressi dell'AI hanno già raggiunto il picco?
Il recente rapporto di @METR_Evals ha suscitato allarme affermando che le capacità dell'AI stanno crescendo in modo esponenziale—raddoppiando ogni 7 mesi.
Ma i dati supportano davvero una crescita indefinita?
Nel nostro nuovo articolo, sosteniamo che la risposta è probabilmente "no." 🧵👇

259
Principali
Ranking
Preferiti