Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Moment, w którym inteligencja została wyryta w kamieniu Ludzkość robi coś szalonego w tej chwili. Buduje centra danych wielkości miast, wznosi elektrownie obok nich, uruchamia sieci satelitarne i chłodzi pomieszczenia pełne superkomputerów, które pochłaniają setki kilowatów dzięki systemom chłodzenia cieczą. Wszystko po to, aby uruchomić AI. Przekonani, że to przyszłość. Ale historia opowiada inną historię. Każda rewolucja technologiczna zaczynała się od monstrualnych prototypów, a te potwory znikały w momencie, gdy pojawiał się praktyczny przełom. Pamiętasz ENIAC? Bestia na lampy próżniowe, która zajmowała cały pokój. Pokazała ludzkości magię obliczeń, ale była wolna, droga i nigdy nie mogła się skalować. Potem pojawił się tranzystor i wszystko się zmieniło. Stacje robocze, komputery osobiste, smartfony poszły w ślad. Świat wybrał transcendencję ENIAC zamiast budować ich więcej. Centra danych GPU, które budujemy dzisiaj, są ENIAC AI. Działają. Olśniewają. Ale to nie koniec. Zanim przeczytasz dalej, przejdź na stronę poniżej i zapytaj o cokolwiek. Trzydzieści sekund to wszystko, co potrzeba. Musisz to poczuć w swoim ciele. LLM dotarł tam, gdzie odpowiedź jest już dostępna w momencie, gdy naciśniesz enter. Żyliśmy, jakby opóźnienie w odpowiedziach AI było po prostu normą. Dlatego to szok, którego żaden benchmark nie może przekazać. Obliczenia ogólnego przeznaczenia zmieniły świat, ponieważ stały się szybkie, tanie i łatwe do zbudowania. AI podąży tą samą ścieżką. Problem polega na tym, że dzisiejsze AI jest dalekie od tej ścieżki. Kiedy zadajesz AI pytanie, opiera brodę na dłoni i myśli przez chwilę. Asystenci kodowania wpatrują się pustym wzrokiem przez minuty, zanim dostarczą odpowiedź, łamiąc twój rytm. Nawet gdy potrzebne są odpowiedzi w ułamku sekundy, wszystko, co dostajesz, to powolna odpowiedź. Rozmowa z AI wciąż przypomina międzynarodowy telefon. Mów, czekaj, czekaj jeszcze chwilę. To opóźnienie jest ścianą między ludźmi a AI. Problem kosztów jest jeszcze gorszy. Uruchomienie dzisiejszego AI wymaga ogromnego sprzętu i kapitału. Stosy HBM, złożone I/O, kable, chłodzenie cieczą, zaawansowane pakowanie, 3D stacking. Dlaczego to wszystko jest konieczne? Ponieważ miejsce, które pamięta, i miejsce, które myśli, są oddzielone. Pomyśl o tym w ten sposób. Twój mózg jest w Seulu, ale wszystkie twoje wspomnienia są przechowywane w magazynie w Busan. Za każdym razem, gdy musisz coś przypomnieć, musisz wziąć KTX do Busan, aby to odzyskać. Nowoczesny sprzęt AI ma dokładnie tę strukturę. Pamięć (DRAM) jest duża i tania, ale znajduje się poza chipem, co sprawia, że dostęp jest tysiące razy wolniejszy niż pamięć na chipie. I nie możesz umieścić DRAM wewnątrz chipa obliczeniowego — procesy produkcyjne są zasadniczo różne. Ta sprzeczność tworzy całą złożoność w sprzęcie AI. Aby skrócić podróż z Seulu do Busan, kładziemy HBM jako szybką kolej, budujemy 3D stacking jako wieżowce i uruchamiamy chłodzenie cieczą jako ogromne klimatyzacje. Naturalnie, zużycie energii rośnie, a koszty idą w górę. Taalas przewrócił to do góry nogami. Zamiast pobierać wspomnienia z Busan, umieścili je bezpośrednio w mózgu. Zunifikowali pamięć i obliczenia na jednym chipie o gęstości na poziomie DRAM. Potem poszli o krok dalej: budując dedykowany krzem dla każdego modelu. Nie z półki — szyte na miarę. W całej historii obliczeń głęboka specjalizacja zawsze była najpewniejszą drogą do ekstremalnej wydajności. Taalas pchnął tę zasadę do jej absolutnego limitu. Jak to możliwe? Wytrawiają wiedzę modelu — jego wagi — bezpośrednio w metalowych warstwach krzemu. Inteligencja, dosłownie wyryta w kamieniu. Jeden tranzystor przechowuje wagę, jednocześnie wykonując mnożenie. Pamięta i myśli w tym samym czasie. W słowach założyciela Ljubisy Bajica, to "nie fizyka jądrowa — to sprytny trik, którego nikt nie zauważył, ponieważ nikt nie poszedł tą drogą." Utrzymują szkielet chipa w nienaruszonym stanie i wymieniają tylko dwie metalowe warstwy, aby dostosować go do konkretnego modelu. Różne tatuaże na tym samym ciele. Na procesie 6nm TSMC zajmuje to dwa miesiące od wag modelu do działającej karty. Chip HC1, z Llama 3.1 8B wyrytym w swoim krzemie, przetwarza około 17 000 tokenów na sekundę na użytkownika. H200 Nvidii robi 230, B200 robi 353, Groq 594, SambaNova 932, Cerebras 1 981. Wszyscy inni jeżdżą na rowerach. Taalas wsiadł do odrzutowca. Jedna karta pobiera 200 watów. Dziesięć kart w serwerze, 2 500 watów. Wystarczy wentylator. Podłącza się bezpośrednio do każdego centrum danych zbudowanego w ciągu ostatnich trzydziestu lat. Koszt produkcji: jedna dwudziesta. Moc: jedna dziesiąta. Żadnego HBM, żadnego zaawansowanego pakowania, żadnego 3D stacking, żadnego chłodzenia cieczą. Oczywiście nic nie jest za darmo. Jeśli ogólny GPU jest głośnikiem, który może zagrać każdą piosenkę, chip Taalas to pozytywka, która gra jedną melodię doskonale. Nie jest inteligentny, a gdy model się zmienia, potrzebujesz nowego chipa. Ale rozmiar kontekstu jest regulowany, a fine-tuning LoRA działa. I co najważniejsze, próg, w którym modele stają się wystarczające do codziennych zadań, zbliża się. Jeśli modele graniczne posuną się jeszcze trochę dalej, wejdziemy w okres, w którym jeden model będzie obsługiwał rutynową pracę przez dość długi czas. To wtedy ekonomika dedykowanej pozytywki będzie miała sens. Nvidia nabyła Groq za 20 miliardów dolarów, SoftBank połknął Graphcore, Intel sięgnął po SambaNova. W tej chwili formuje się ogromna fala w kierunku krzemu specyficznego dla wnioskowania. Taalas stoi na najbardziej radykalnym brzegu. Pierwszy produkt zaczyna się od Llama wyrytego w krzemie, a następnie wiosną pojawi się model rozumowania średniej wielkości, a zimą model graniczny. ...

Najlepsze

Ranking

Ulubione