Le AI rispondono alle tue domande in pochi secondi, ma dietro a quella velocità c'è qualcosa chiamato inferenza—il processo intensivo in termini di calcolo in cui i modelli addestrati generano risposte. In AWS, abbiamo costruito chip personalizzati come Trainium, sistemi di routing intelligenti e un'infrastruttura unificata per rendere l'inferenza più veloce e più conveniente. Mentre gli agenti AI gestiscono compiti complessi a più fasi, l'inferenza rappresenta l'80-90% della potenza di calcolo dell'AI. Stiamo ingegnerizzando su scala planetaria per mantenere quei millisecondi affidabili.