Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Hamsa Bastani
Prof. @Wharton @Penn; aprendizagem automática para saúde e bem social; Foodie, gamer, caseiro
🚨🚨 Estamos entusiasmados em compartilhar nossos primeiros resultados *positivos* sobre IA na educação!
A maior parte do trabalho de tutores de IA foca em melhorar o chatbot. Sugerimos outra alavanca: decidir o que os alunos devem praticar a seguir para melhorar a aprendizagem.
Combinamos um tutor LLM com aprendizado por reforço para personalizar a sequência de problemas usando sinais das interações aluno-chatbot e tentativas de solução.
Testamos isso em um experimento de campo randomizado de 5 meses em um curso de Python em 10 escolas secundárias em Taipei. Todos os alunos tiveram o mesmo material do curso e o mesmo tutor de IA. A única diferença foi a sequência de problemas adaptativa vs. fixa.
Resultado: entre 770 alunos, a sequência adaptativa melhorou o desempenho em um exame final presencial realizado sem assistência de IA em 0.15 SD, com efeitos maiores para iniciantes. Nossa evidência sugere que os ganhos vieram de um engajamento mais forte e de um uso mais produtivo da IA.

399
Queria fazer algumas clarificações, que acreditamos que estavam claras no nosso artigo, mas não na minha postagem original (re-analisando os dados da @METR_Evals).
A nossa contribuição é postular o progresso como um produto multiplicativo de sigmoides em torno de diferentes inovações. Dado os dados da METR, dividimos em melhorias nas capacidades básicas (tamanho dos dados/modelo) e raciocínio.
Mostramos que este produto fornece um ajuste *in-sample* semelhante aos pequenos conjuntos de dados que observamos como crescimento exponencial. No entanto, as implicações são muito diferentes! Sob o nosso modelo, precisaríamos de inovações contínuas (semelhantes ao raciocínio) para ver um progresso exponencial contínuo.
Isso não quer dizer que descartamos o progresso exponencial, ou que o nosso produto de sigmoides é o modelo certo. É simplesmente para dizer que há poucos pontos e múltiplos modelos subjacentes possíveis com implicações muito diferentes.
O nosso ajuste de sigmoide do produto realmente se encaixa muito bem ao segurar o GPT 5.2 e/ou Gemini 3 pro. Ficamos piores ao segurar adicionalmente o Claude Opus 4.5, mas ainda plausível. O nosso objetivo não é discutir sobre métricas OOS em um punhado de pontos de dados, mas apontar que as previsões existentes são frágeis e não modelam a sucessão de diferentes inovações. (Há alguns outros ajustes flutuando pelo X, mas eles não parecem estar usando o nosso produto sigmoide proposto, então não posso dizer o que está acontecendo lá...)
Peço desculpas pela minha postagem anterior sem nuances – esperamos que as pessoas leiam o artigo!

Hamsa Bastani6/02/2026
ATUALIZAÇÃO: aqui está a nossa adaptação para o Horizonte de Tempo 1.1. Resumindo, propomos um modelo que separa as capacidades básicas e de raciocínio, que apresenta previsões mais razoáveis. Ajustamos este modelo com dados até o Claude Opus 4.5 e prevemos o GPT-5.2
@TomCunningham75
@joel_bkr

319
ATUALIZAÇÃO: aqui está a nossa adaptação para o Horizonte de Tempo 1.1. Resumindo, propomos um modelo que separa as capacidades básicas e de raciocínio, que apresenta previsões mais razoáveis. Ajustamos este modelo com dados até o Claude Opus 4.5 e prevemos o GPT-5.2
@TomCunningham75
@joel_bkr


Hamsa Bastani5/02/2026
Has AI progress already peaked?
The recent @METR_Evals report sparked alarm by claiming AI capabilities are growing exponentially—doubling every 7 months.
But does the data actually support indefinite growth?
In our new paper, we argue the answer is likely "no." 🧵👇

401
Top
Classificação
Favoritos