Proste dodanie szumu Gaussa do LLM-ów (jeden krok — bez iteracji, bez współczynnika uczenia, bez gradientów) oraz ich ensembling może osiągnąć wyniki porównywalne, a nawet lepsze niż standardowe GRPO/PPO w zadaniach związanych z rozumowaniem matematycznym, kodowaniem, pisaniem i chemią. Nazywamy ten algorytm RandOpt. Aby zweryfikować, że nie jest to ograniczone do konkretnych modeli, przetestowaliśmy go na Qwen, Llama, OLMo3 i VLM-ach. Co za tym stoi? Odkrywamy, że w sąsiedztwie wyszukiwania Gaussa wokół wstępnie wytrenowanych LLM-ów, różnorodni eksperci w zadaniach są gęsto rozmieszczeni — reżim, który nazywamy Gęstwiny Neuronalnej. Artykuł: Kod: Strona internetowa: