Mistral đã phát hành Mistral Small 4, một mô hình trọng số mở với lý luận hỗn hợp và đầu vào hình ảnh, đạt 27 trên Chỉ số Trí tuệ Phân tích Nhân tạo @MistralAI's Small 4 là một mô hình hỗn hợp chuyên gia 119B với 6.5B tham số hoạt động cho mỗi token, hỗ trợ cả chế độ lý luận và không lý luận. Trong chế độ lý luận, Mistral Small 4 đạt 27 trên Chỉ số Trí tuệ Phân tích Nhân tạo, cải thiện 12 điểm so với Small 3.2 (15) và hiện nằm trong số những mô hình thông minh nhất mà Mistral đã phát hành, vượt qua Mistral Large 3 (23) và ngang bằng với Magistral Medium 1.2 (27). Tuy nhiên, nó vẫn thua kém các đồng nghiệp trọng số mở với số lượng tham số tổng tương tự như gpt-oss-120B (cao, 33), NVIDIA Nemotron 3 Super 120B A12B (Lý luận, 36), và Qwen3.5 122B A10B (Lý luận, 42). Những điểm chính: ➤ Chế độ lý luận và không lý luận trong một mô hình duy nhất: Mistral Small 4 hỗ trợ lý luận hỗn hợp có thể cấu hình với chế độ lý luận và không lý luận, thay vì các biến thể lý luận riêng biệt mà Mistral đã phát hành trước đó với các mô hình Magistral của họ. Trong chế độ lý luận, mô hình đạt 27 trên Chỉ số Trí tuệ Phân tích Nhân tạo. Trong chế độ không lý luận, mô hình đạt 19, cải thiện 4 điểm so với người tiền nhiệm Mistral Small 3.2 (15) ➤ Hiệu quả token hơn so với các đồng nghiệp có kích thước tương tự: Với ~52M token đầu ra, Mistral Small 4 (Lý luận) sử dụng ít token hơn để chạy Chỉ số Trí tuệ Phân tích Nhân tạo so với các mô hình lý luận như gpt-oss-120B (cao, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Lý luận, ~110M), và Qwen3.5 122B A10B (Lý luận, ~91M). Trong chế độ không lý luận, mô hình sử dụng ~4M token đầu ra ➤ Hỗ trợ đầu vào hình ảnh gốc: Mistral Small 4 là một mô hình đa phương thức, chấp nhận đầu vào hình ảnh cũng như văn bản. Trong đánh giá đa phương thức của chúng tôi, MMMU-Pro, Mistral Small 4 (Lý luận) đạt 57%, vượt qua Mistral Large 3 (56%) nhưng kém hơn Qwen3.5 122B A10B (Lý luận, 75%). Cả gpt-oss-120B và NVIDIA Nemotron 3 Super 120B A12B đều không hỗ trợ đầu vào hình ảnh. Tất cả các mô hình chỉ hỗ trợ đầu ra văn bản ➤ Cải thiện trong các nhiệm vụ tác nhân thực tế: Mistral Small 4 đạt Elo 871 trên GDPval-AA, đánh giá của chúng tôi dựa trên tập dữ liệu GDPval của OpenAI, kiểm tra các mô hình trên các nhiệm vụ thực tế trong 44 nghề nghiệp và 9 ngành công nghiệp lớn, với các mô hình sản xuất các sản phẩm như tài liệu, bảng tính và sơ đồ trong một vòng lặp tác nhân. Điều này gấp đôi Elo của Small 3.2 (339) và gần với Mistral Large 3 (880), nhưng kém hơn gpt-oss-120B (cao, 962), NVIDIA Nemotron 3 Super 120B A12B (Lý luận, 1021), và Qwen3.5 122B A10B (Lý luận, 1130) ➤ Tỷ lệ ảo tưởng thấp hơn so với các mô hình đồng nghiệp có kích thước tương tự: Mistral Small 4 đạt -30 trên AA-Omniscience, đánh giá của chúng tôi về độ tin cậy kiến thức và ảo tưởng, nơi điểm số dao động từ -100 đến 100 (cao hơn thì tốt hơn) và một điểm số âm cho thấy nhiều câu trả lời sai hơn đúng. Mistral Small 4 đạt điểm cao hơn gpt-oss-120B (cao, -50), Qwen3.5 122B A10B (Lý luận, -40), và NVIDIA Nemotron 3 Super 120B A12B (Lý luận, -42) Chi tiết mô hình chính: ➤ Cửa sổ ngữ cảnh: 256K token (tăng từ 128K trên Small 3.2) ➤ Giá cả: $0.15/$0.6 cho mỗi 1M token đầu vào/đầu ra ➤ Tính khả dụng: Chỉ API của Mistral. Ở độ chính xác FP8 gốc, 119B tham số của Mistral Small 4 yêu cầu ~119GB để tự lưu trữ trọng số (nhiều hơn 80GB bộ nhớ HBM3 trên một NVIDIA H100 đơn) ➤ Phương thức: Đầu vào hình ảnh và văn bản với chỉ đầu ra văn bản ➤ Giấy phép: Giấy phép Apache 2.0
Về Trí tuệ so với Tổng số Tham số, Mistral Small 4 (Lập luận, 27) cung cấp một sự trao đổi kém thuận lợi hơn so với các đối thủ cùng kích thước như gpt-oss-120B (cao, 33), NVIDIA Nemotron 3 Super 120B A12B (Lập luận, 36), và Qwen3.5 122B A10B (Lập luận, 42)
Với khoảng 52 triệu token đầu ra, Mistral Small 4 (Lập luận) sử dụng ít token hơn để chạy Chỉ số Trí tuệ Phân tích Nhân tạo so với các mô hình đồng nghiệp như gpt-oss-120B (cao, khoảng 78 triệu), NVIDIA Nemotron 3 Super 120B A12B (Lập luận, khoảng 110 triệu) và Qwen3.5 122B A10B (Lập luận, khoảng 91 triệu)
Phân tích đầy đủ kết quả:
Kết quả đầy đủ có sẵn trên trang mô hình Mistral Small 4 trên Artificial Analysis:
9,54K