- Se você continuar a tendência do METR, verá modelos de ~100h até o final do ano! (~8x mais poderosos do que agora) - O METR realmente terá dificuldades para ter os benchmarks necessários para avaliar modelos desse poder - Não podemos mais descartar uma automação significativa do desenvolvimento de IA ESTE ANO
Ajeya Cotra
Ajeya Cotra5/03, 23:17
Novo post: em 14 de janeiro, previ que o horizonte de tempo do SWE até o final do ano seria de ~24 horas. Agora, acho que será >100 horas, e talvez sem limites. Pela primeira vez, não vejo evidências sólidas contra a automação de P&D em IA *este ano.* Link abaixo.
@Douglas_Schon A razão média p80/p50 é ~0,19... é notavelmente estável.
@djinnius @microfounded @eli_lifland Eu também tenho um Substack
149