1/ У нас криза масштабування апаратного забезпечення. Тензорні ядра GPU подвоюють швидкість, але пропускна здатність пам'яті та експоненційні математичні блоки застоюються. Ваші ядра уваги простоюють, чекаючи, поки закінчиться базова математика. 🧵