Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
$1 milionowy Benchmark AI
Zamiast pytać „czy to jest poprawne?”
To pyta: „czy ktoś by za to zapłacił?”
W przypadku $1 miliona rzeczywistych zadań ekspertów, najlepsze modele wykonują tylko około 40–48%.
Najlepszy: Claude Opus-4.6.
Duża luka nie dotyczy wiedzy, lecz wykonania.
Modele pomijają kroki, ograniczenia i szczegóły.
AI jest potężne. Po prostu jeszcze nie jest niezawodne end-to-end.
Ciekawi mnie, jak ta liczba będzie rosła 📈

Link do badania:
129
Najlepsze
Ranking
Ulubione
