Disse nye AI-benchmarkene begynner å bli helt ville.