为了衡量自2019年以来的算法进展,我使用现代的nanogpt速度运行堆栈重新训练了GPT-2。 当前的nanogpt SOTA速度是707倍。 我们可以将总加速分解为 > 每秒FLOP快15倍(在固定硬件上) > 达到相同验证损失所需的FLOP少46倍。