Mistral ha publicado Mistral Small 4, un modelo de pesos abiertos con razonamiento híbrido y entrada de imagen, obteniendo una puntuación 27 en el Índice de Inteligencia de Análisis Artificial El Small 4 de @MistralAI es un modelo 119B de mezcla de expertos con 6,5 mil millones de parámetros activos por token, que soporta tanto modos de razonamiento como no razonamiento. En modo razonamiento, Mistral Pequeño 4 obtiene una puntuación de 27 en el Índice de Inteligencia de Análisis Artificial, una mejora de 12 puntos respecto al Small 3,2 (15) y ahora es uno de los modelos más inteligentes que Mistral ha lanzado, superando a Mistral Grande 3 (23) y igualando al propietario Magistral Medium 1,2 (27). Sin embargo, va por detrás de los pares de peso abierto con conteos totales de parámetros similares, como gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, 36) y Qwen3.5 122B A10B (Razonamiento, 42). Puntos clave: ➤ Modos de razonamiento y no razonamiento en un solo modelo: Mistral Small 4 soporta razonamiento híbrido configurable con modos de razonamiento y no razonamiento, en lugar de las variantes de razonamiento separadas que Mistral ha lanzado previamente con sus modelos Magistral. En modo razonamiento, el modelo obtiene una puntuación de 27 en el Índice de Inteligencia de Análisis Artificial. En modo no razonamiento, el modelo obtiene una puntuación de 19, una mejora de 4 puntos respecto a su predecesor Mistral Small 3,2 (15) ➤ Más eficiente en tokens que los pares de tamaño similar: Con ~52M tokens de salida, Mistral Small 4 (Razonamiento) utiliza menos tokens para ejecutar el Índice de Inteligencia de Análisis Artificial en comparación con modelos de razonamiento como gpt-oss-120B (alto, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, ~110M) y Qwen3.5 122B A10B (Razonamiento, ~91M). En modo no razonante, el modelo utiliza ~4M tokens de salida ➤ Soporte nativo para entrada de imágenes: Mistral Small 4 es un modelo multimodal, que acepta entrada de imagen así como texto. En nuestra evaluación multimodal, MMMU-Pro, Mistral Pequeño 4 (Razonamiento) obtiene un 57%, por delante de Mistral Grande 3 (56%) pero por detrás de Qwen3.5 122B A10B (Razonamiento, 75%). Ni gpt-oss-120B ni NVIDIA Nemotron 3 Super 120B A12B soportan entrada de imagen. Todos los modelos solo admiten salida de texto ➤ Mejora en tareas agenticas reales: Mistral Small 4 obtiene un Elo de 871 en GDPval-AA, nuestra evaluación basada en el conjunto de datos GDPval de OpenAI que prueba modelos sobre tareas del mundo real en 44 ocupaciones y 9 industrias principales, con modelos que producen entregables como documentos, hojas de cálculo y diagramas en un bucle agente. Esto es más del doble del Elo de Small 3.2 (339) y cerca de Mistral Large 3 (880), pero por detrás de gpt-oss-120B (alto, 962), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 1021) y Qwen3.5 122B A10B (Reasoning, 1130) ➤ Tasa de alucinaciones menor que modelos similares de tamaño: Mistral Small 4 obtiene -30 en AA-Omnisciencia, nuestra evaluación de fiabilidad del conocimiento y alucinaciones, donde las puntuaciones van de -100 a 100 (más alto, mejor) y una puntuación negativa indica más respuestas incorrectas que correctas. Mistral Small 4 supera a gpt-oss-120B (alto, -50), Qwen3.5 122B A10B (Razonamiento, -40) y NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, -42) Detalles clave del modelo: ➤ Ventana de contexto: 256K tokens (frente a 128K en Small 3.2) ➤ Precio: $0,15/$0,6 por 1M de tokens de entrada/salida ➤ Disponibilidad: Solo API de primera mano de Mistral. Con precisión nativa FP8, los parámetros 119B de Mistral Small 4 requieren ~119GB para alojar los pesos por sí mismos (más que los 80GB de memoria HBM3 en un solo NVIDIA H100) ➤ Modalidad: Entrada de imagen y texto con salida solo de texto ➤ Licencias: Licencia Apache 2.0
En cuanto a Inteligencia vs Parámetros Totales, Mistral Small 4 (Razonamiento, 27) ofrece un compromiso menos favorable que pares de tamaños similares como gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, 36) y Qwen3.5 122B A10B (Razonamiento, 42)
Con ~52M tokens de salida, Mistral Small 4 (Razonamiento) utiliza menos tokens para ejecutar el Índice de Inteligencia de Análisis Artificial en comparación con modelos pares como gpt-oss-120B (alto, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Razonamiento, ~110M) y Qwen3.5 122B A10B (Razonamiento, ~91M)
Desglose completo de los resultados:
Resultados completos disponibles en la página del modelo Mistral Small 4 sobre Análisis Artificial:
9.63K