AI trả lời câu hỏi của bạn trong vài giây, nhưng đằng sau tốc độ đó là một cái gì đó gọi là suy diễn - quá trình tính toán tốn kém mà các mô hình đã được đào tạo tạo ra phản hồi. Tại AWS, chúng tôi đã xây dựng các chip tùy chỉnh như Trainium, các hệ thống định tuyến thông minh và cơ sở hạ tầng thống nhất để làm cho suy diễn nhanh hơn và tiết kiệm hơn. Khi các tác nhân AI xử lý các nhiệm vụ phức tạp nhiều bước, suy diễn chiếm 80-90% sức mạnh tính toán của AI. Chúng tôi đang kỹ thuật ở quy mô hành tinh để giữ cho những mili giây đó đáng tin cậy.