Mistral ha lanzado Mistral Small 4, un modelo de pesos abiertos con razonamiento híbrido y entrada de imagen, obteniendo 27 en el Índice de Inteligencia de Análisis Artificial. El Small 4 de @MistralAI es un modelo de mezcla de expertos de 119B con 6.5B de parámetros activos por token, que admite tanto modos de razonamiento como no razonamiento. En modo de razonamiento, Mistral Small 4 obtiene 27 en el Índice de Inteligencia de Análisis Artificial, una mejora de 12 puntos respecto a Small 3.2 (15) y ahora se encuentra entre los modelos más inteligentes que Mistral ha lanzado, superando a Mistral Large 3 (23) y igualando al Magistral Medium 1.2 (27) propietario. Sin embargo, se queda atrás de los pares de pesos abiertos con conteos de parámetros totales similares, como gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, 36) y Qwen3.5 122B A10B (Razonamiento, 42). Puntos clave: ➤ Modos de razonamiento y no razonamiento en un solo modelo: Mistral Small 4 admite razonamiento híbrido configurable con modos de razonamiento y no razonamiento, en lugar de las variantes de razonamiento separadas que Mistral ha lanzado anteriormente con sus modelos Magistral. En modo de razonamiento, el modelo obtiene 27 en el Índice de Inteligencia de Análisis Artificial. En modo de no razonamiento, el modelo obtiene 19, una mejora de 4 puntos respecto a su predecesor Mistral Small 3.2 (15). ➤ Más eficiente en tokens que pares de tamaño similar: Con ~52M de tokens de salida, Mistral Small 4 (Razonamiento) utiliza menos tokens para ejecutar el Índice de Inteligencia de Análisis Artificial en comparación con modelos de razonamiento como gpt-oss-120B (alto, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, ~110M) y Qwen3.5 122B A10B (Razonamiento, ~91M). En modo de no razonamiento, el modelo utiliza ~4M de tokens de salida. ➤ Soporte nativo para entrada de imagen: Mistral Small 4 es un modelo multimodal, que acepta entrada de imagen así como texto. En nuestra evaluación multimodal, MMMU-Pro, Mistral Small 4 (Razonamiento) obtiene un 57%, por delante de Mistral Large 3 (56%) pero detrás de Qwen3.5 122B A10B (Razonamiento, 75%). Ni gpt-oss-120B ni NVIDIA Nemotron 3 Super 120B A12B admiten entrada de imagen. Todos los modelos solo admiten salida de texto. ➤ Mejora en tareas agenticas del mundo real: Mistral Small 4 obtiene un Elo de 871 en GDPval-AA, nuestra evaluación basada en el conjunto de datos GDPval de OpenAI que prueba modelos en tareas del mundo real a través de 44 ocupaciones y 9 industrias principales, con modelos produciendo entregables como documentos, hojas de cálculo y diagramas en un bucle agentico. Esto es más del doble del Elo de Small 3.2 (339) y cerca de Mistral Large 3 (880), pero detrás de gpt-oss-120B (alto, 962), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, 1021) y Qwen3.5 122B A10B (Razonamiento, 1130). ➤ Tasa de alucinación más baja que modelos pares de tamaño similar: Mistral Small 4 obtiene -30 en AA-Omnisciencia, nuestra evaluación de la fiabilidad del conocimiento y la alucinación, donde las puntuaciones oscilan entre -100 y 100 (más alto es mejor) y una puntuación negativa indica más respuestas incorrectas que correctas. Mistral Small 4 obtiene una puntuación superior a gpt-oss-120B (alto, -50), Qwen3.5 122B A10B (Razonamiento, -40) y NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, -42). Detalles clave del modelo: ➤ Ventana de contexto: 256K tokens (aumentando desde 128K en Small 3.2). ➤ Precios: $0.15/$0.6 por 1M de tokens de entrada/salida. ➤ Disponibilidad: Solo API de primera parte de Mistral. A precisión nativa FP8, los 119B parámetros de Mistral Small 4 requieren ~119GB para auto-alojar los pesos (más que los 80GB de memoria HBM3 en un solo NVIDIA H100). ➤ Modalidad: Entrada de imagen y texto con salida de texto solamente. ➤ Licencia: Licencia Apache 2.0.
En Inteligencia vs Parámetros Totales, Mistral Small 4 (Razonamiento, 27) ofrece un intercambio menos favorable que sus pares de tamaños similares como gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, 36) y Qwen3.5 122B A10B (Razonamiento, 42)
Con ~52M de tokens de salida, Mistral Small 4 (Razonamiento) utiliza menos tokens para ejecutar el Índice de Análisis de Inteligencia Artificial en comparación con modelos similares como gpt-oss-120B (alto, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, ~110M) y Qwen3.5 122B A10B (Razonamiento, ~91M)
Desglose completo de resultados:
Resultados completos disponibles en la página del modelo Mistral Small 4 en Artificial Analysis:
9,34K