Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Simo Ryu
Ich mag Katzen, Mathematik und Codes
cloneofsimo@gmail.com
Die Community ist absolut verrückt bei diesen Herausforderungen! Macht weiter so!!

Vuk Rosić22. März, 02:22
Ich habe 71 schnelle Experimente für 500 von 13.000 Schritten für die Herausforderung von OpenAI durchgeführt.
1. Mixture of Experts ist der absolute GEWINNER
(sehr überraschend, da es für kleine LLMs nicht so sein sollte)
> Die Anzahl der Experten ist am wichtigsten. 4 (beste) > 3 >> 2.
2. UNTIED Embeddings funktionieren, gebundene sind eine Katastrophe.
3. Depthwise Convolution - TOTEN ENDE.
Einblicke:
1. 4-expert MOE + leaky ReLU -> -0.048 BPB, klarer Gewinner.
2. Untied factored embeddings (bn128) -> -0.031 BPB, es lohnt sich, mit MOE zu kombinieren.
3. MOE + QAT-Kombination -> bewahrt die quantisierte Qualität für die Einreichung.
tote Enden
1. Depthwise convolution -> jede Variante schadet, größere Kerne schaden mehr.
2. Tied factored embeddings -> katastrophal, besonders bei kleinen Engpässen.
3. Gewichtsteilung -> nicht wettbewerbsfähig mit MOE in Bezug auf Qualität.
4. Conv + alles Kombinationen — verstärken den Schaden.
Nächste Schritte
1. MOE 4e + leaky bei 2000-5000 Schritten validieren, mehrere Seeds.
2. MOE 4e + leaky + untied bn128 testen — die beiden größten Gewinne könnten sich stapeln.
3. Vollständiger Durchlauf (13780 Schritte) der besten Kombination, um zu sehen, ob sie die 1.2244 BPB-Leaderboard übertrifft.
71 Experimente, 3 GPUs, ~500 Schritte jeweils. Vuk Rosić.
Das Training über 500 Schritte hilft uns hauptsächlich, SEHR SCHLECHTE Verlierer auszuschließen, Gewinner müssen in längeren Trainings getestet werden.
Danke @novita_labs für die Rechenleistung!



240
In diesem Zusammenhang bin ich äußerst optimistisch, was LLM ermöglicht hat und weiterhin ermöglichen wird. Aber wenn es eine Sache gibt, über die ich pessimistisch bin, dann ist es das Lernen. LLM wird nicht verbessern, wie schnell du Dinge lernst. Denn du lernst nicht durch Lesen oder durch Vorträge: Du lernst Dinge AUSSCHLIESSLICH durch das TUN.
Du wirst niemals einen Mathematiker oder Programmierer hören, der sagt, dass er durch "das Lesen von Lehrbüchern oder Dokumenten" gelernt hat.

Simo Ryu22. März, 02:00
Es ist sehr wahrscheinlich, dass ein LLM, das auf der Newtonschen Physik trainiert wurde, niemals zur Relativitätstheorie kommen wird, um die Schwerkraft im kosmischen Maßstab zu erklären. In diesem Fall müsste Einstein eingreifen und es stattdessen lösen.
Aber hätte er es erfunden, wenn er alle physikalischen Problemlösungen an LLMs ausgelagert hätte?
Ich denke, das ist ein ernstes Problem. Zweifellos sind viele GOATs nur GOATs, weil sie all die Intuition aus der eigenen Problemlösung aufgebaut haben. Grothendieck hat berühmt die Maßtheorie von Grund auf neu erfunden, als er ein Teenager war. Wenn die Leute ihre RL-Umgebungen, die sie hätten nutzen können, an LLMs auslagern, werden wir niemals den nächsten Einstein bekommen.
214
Top
Ranking
Favoriten
