Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hamsa Bastani
Prof. @Wharton @Penn; maschinelles Lernen für Gesundheit und gesellschaftliches Wohl; Feinschmecker, Gamer, Stubenhocker
🚨🚨 Aufgeregt, unsere ersten *positiven* Ergebnisse zu KI in der Bildung zu teilen!
Die meisten KI-Tutor-Arbeiten konzentrieren sich darauf, den Chatbot zu verbessern. Wir schlagen einen anderen Hebel vor: zu entscheiden, was die Schüler als Nächstes üben sollten, um das Lernen zu verbessern.
Wir kombinieren einen LLM-Tutor mit verstärkendem Lernen, um die Problemlösungspsequenzierung zu personalisieren, indem wir Signale aus den Interaktionen zwischen Schüler und Chatbot sowie den Lösungsversuchen nutzen.
Wir haben dies in einem 5-monatigen randomisierten Feldexperiment in einem Python-Kurs an 10 High Schools in Taipeh getestet. Alle Schüler hatten dasselbe Kursmaterial und denselben KI-Tutor. Der einzige Unterschied war die adaptive vs. feste Problemlösungspsequenzierung.
Ergebnis: Bei 770 Schülern verbesserte die adaptive Sequenzierung die Leistung in einer Präsenzabschlussprüfung, die ohne KI-Unterstützung abgelegt wurde, um 0,15 SD, mit größeren Effekten für Anfänger. Unsere Beweise deuten darauf hin, dass die Gewinne aus einem stärkeren Engagement und einer produktiveren Nutzung der KI resultierten.

272
Ich wollte ein paar Klarstellungen machen, die wir in unserem Papier für klar hielten, aber nicht in meinem ursprünglichen Beitrag (erneute Analyse der Daten von @METR_Evals).
Unser Beitrag besteht darin, Fortschritt als ein multiplikatives Produkt von Sigmoiden um verschiedene Innovationen zu postulieren. Angesichts der METR-Daten haben wir diese in Verbesserungen der Grundfähigkeiten (Daten-/Modellgröße) und des Denkens unterteilt.
Wir zeigen, dass dieses Produkt eine ähnliche *In-Sample*-Anpassung an die kleinen Datensätze, die wir beobachten, wie exponentielles Wachstum bietet. Die Implikationen sind jedoch sehr unterschiedlich! Nach unserem Modell bräuchten wir fortlaufende Innovationen (ähnlich wie beim Denken), um weiterhin exponentiellen Fortschritt zu sehen.
Das soll nicht heißen, dass wir exponentiellen Fortschritt ausschließen oder dass unser Produkt von Sigmoiden das richtige Modell ist. Es soll einfach sagen, dass es wenige Punkte und mehrere mögliche zugrunde liegende Modelle mit sehr unterschiedlichen Implikationen gibt.
Unsere Produkt-Sigmoid-Anpassung passt tatsächlich sehr gut, wenn wir GPT 5.2 und/oder Gemini 3 pro zurückhalten. Wir sehen schlechter aus, wenn wir zusätzlich Claude Opus 4.5 zurückhalten, aber es bleibt plausibel. Unser Ziel ist es nicht, über OOS-Metriken bei einer Handvoll von Datenpunkten zu streiten, sondern darauf hinzuweisen, dass bestehende Prognosen fragil sind und die Abfolge verschiedener Innovationen nicht modellieren. (Es gibt ein paar andere Anpassungen, die auf X herumschwirren, aber sie scheinen unser vorgeschlagenes Produkt-Sigmoid nicht zu verwenden, also kann ich nicht sagen, was dort vor sich geht…)
Ich entschuldige mich für meinen wenig nuancierten früheren Beitrag – wir hoffen, dass die Leute das Papier lesen werden!

Hamsa Bastani6. Feb. 2026
UPDATE: hier ist unser Ansatz für den Zeitrahmen 1.1. Kurz gesagt, wir postulieren ein Modell, das Basis- und Denkfähigkeiten trennt, was realistischere Vorhersagen zeigt. Wir haben dieses Modell mit Daten bis Claude Opus 4.5 angepasst und prognostizieren GPT-5.2
@TomCunningham75
@joel_bkr

286
UPDATE: hier ist unser Ansatz für den Zeitrahmen 1.1. Kurz gesagt, wir postulieren ein Modell, das Basis- und Denkfähigkeiten trennt, was realistischere Vorhersagen zeigt. Wir haben dieses Modell mit Daten bis Claude Opus 4.5 angepasst und prognostizieren GPT-5.2
@TomCunningham75
@joel_bkr


Hamsa Bastani5. Feb. 2026
Has AI progress already peaked?
The recent @METR_Evals report sparked alarm by claiming AI capabilities are growing exponentially—doubling every 7 months.
But does the data actually support indefinite growth?
In our new paper, we argue the answer is likely "no." 🧵👇

295
Top
Ranking
Favoriten