- Als je de METR-trend voortzet, zie je ~100h-modellen tegen het einde van het jaar! (~8x krachtiger dan nu) - METR zal echt moeite hebben om de benchmarks te hebben die nodig zijn om modellen van die kracht te beoordelen - We kunnen significante automatisering van AI-ontwikkeling DIT JAAR niet langer uitsluiten
Ajeya Cotra
Ajeya Cotra5 mrt, 23:17
Nieuwe post: op 14 januari voorspelde ik dat de SWE-tijdshorizon tegen het einde van het jaar ongeveer 24 uur zou zijn. Nu denk ik dat het >100 uur zal zijn, en misschien onbeperkt. Voor het eerst zie ik geen solide bewijs tegen AI R&D-automatisering *dit jaar.* Link hieronder.
@Douglas_Schon De gemiddelde verhouding p80/p50 is ~0,19... het is opmerkelijk stabiel.
@djinnius @microfounded @eli_lifland Ik heb ook een Substack
87