Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Otevřel jsem autokernel – autoresearch pro GPU jádra
Dej mu jakýkoli model Pytorch. Profiluje model, najde jádra úzkého hrdla, nahradí tritonové náhrady a provádí experimenty přes noc. Upravit jeden soubor, benchmarkovat, zachovat nebo vrátit, opakovat donekonečna.
Stejný cyklus jako @karpathy autoresearch, aplikovaný na optimalizaci jádra
95 experimentů. 18 TFLOPS → 187 TFLOPS. 1,31x vs cuBLAS. Vše autonomní
9 typů jader (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahlov zákon rozhoduje, co optimalizovat dál. Pětistupňové kontroly správnosti před započítáním zrychlení
agent čte program.md ("kód výzkumné organizace"), upravuje a buď ponechá, nebo vrátí zpět. ~40 experimentů za hodinu. ~320 přes noc
Obsahuje samostatné definice GPT-2, LLaMA a BERT, takže k začátku nepotřebujete knihovnu transformers

Top
Hodnocení
Oblíbené
