這真是太棒了。為大型語言模型提供的工具,可以玩 Magic,並記錄比賽和排行榜。 他們的表現,正如預期的那樣,完全糟糕。但前沿模型在排行榜上名列前茅,所以這裡有一些信號!