Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Peter Gostev
Aktualizace BullshitBench v2: Grok 4.2 – obrovský skok v žebříčku – 4.1 byl na 54. a 72. místě (z 84) a teď se dostal na 13.–16. místo.


Peter Gostev2. 3. 23:29
BullshitBench v2 is out! It is one of the few benchmarks where models are generally not getting better (except Claude) and where reasoning isn't helping.
What's new: 100 new questions, by domain (coding (40 Q's), medical (15), legal (15), finance (15), physics(15)), 70+ model variants tested. BullshitBench is already at 380 starts on GitHub - all questions, scripts, responses and judgements are there so check it out.
TL;DR:
- Results replicated - @AnthropicAI latest models are scoring exceptionally well
- @Alibaba_Qwen is another very strong performer
- OpenAI and Google models are not doing well and are not improving
- Domains do not show much difference - rates of BS detection are about the same across all domains
- Reasoning, if anything, has negative effect
- Newer models don't do that much better than older ones (except Anthropic)
Links:
- Data explorer:
- GitHub:
Highly recommend the data explorer where you can study the data and the questions & sample answers.
126
Něco, o čem se často nemluví – jak Microsoft zbytečně podrazil OpenAI a předal podnikový trh společnosti Anthropic.
Microsoft je velkým investorem do OpenAI a rozhodl se, že jejich modely budou exkluzivní pro Azure Cloud. To dopadlo perfektně pro Anthropic, ale ne pro OpenAI a možná ani pro Microsoft.
Kolem let 2023/4 vedl OpenAI nejen v oblasti spotřebitelů, ale i podniků – jako první zavedl například JSON formát odpovědí, strukturované výstupy, dávkový režim a řadu dalších funkcí – to vše před Anthropic. A nebylo jasné, že modely Anthropic jsou v té době lepší.
Jak tedy Anthropic získal podíl? Tehdy to nebyl Claude Code nebo Cursor, ale prostě proto, že pokud jste na AWS (asi 35 % trhu), Claude modely byly zdaleka nejlepší modely, ke kterým jste měli přístup. Pamatujte, že OpenAI nesmělo být na AWS.
Zákazníci AWS mohli jít přímo na OpenAI a někteří to udělali, ale nepodceňujte úsilí, které to vyžaduje pro velké firmy. Tehdy jsem pracoval ve velké staré firmě a trvalo nám asi 4 měsíce a asi 500 tisíc dolarů, než jsme získali přístup k OpenAI, protože jsme byli zákazníkem AWS. A tento projekt byl považován za velmi úspěšný. Většina se o to prostě nebude starat.
Možná už v roce 2023 byla exkluzivita užitečná – OpenAI byla v podstatě jediná hra a někteří teoreticky mohli přejít na Azure. Ale teď, jaká je teorie, jak udržet OpenAI exkluzivní pro Azure?
Pokud jste zákazník AWS nebo GCP (polovina trhu), nejjednodušší je prostě použít API, které je dostupné ve vašem cloudu, což stále nemůže být OpenAI. Nedokážu si představit situaci, kdy by významný zákazník AWS přešel na cloudy na Azure, aby používal pouze modely OpenAI.
A proč? Dobře, Azure získal pár bodů na trhu, možná to bylo částečně díky exkluzivitě OpenAI v minulosti. Nyní OpenAI horečně přepisuje svůj vztah s Microsoftem a může to v budoucnu nechat Microsoft bez IP.
I matematicky bych vsadil, že vyšší růst OpenAI by přinesl Microsoftu větší hodnotu díky vlastnictví OpenAI, než aby Azure získal malou výhodu před třemi lety.
Doufám, že Dario koupí Satyovi pivo.
73
Top
Hodnocení
Oblíbené