🚨 Vaya… la formación en seguridad está rompiendo la IA. Un nuevo artículo de investigación de la Universidad Johns Hopkins y MSU acaba de mostrar que la forma en que empresas como OpenAI y Anthropic hacen que los modelos sean "seguros" está causando accidentalmente que rechacen solicitudes perfectamente normales. Y la razón es sorprendentemente tonta. Resulta que los modelos no están rechazando solicitudes dañinas porque entienden el peligro. Las están rechazando porque aprendieron a asociar ciertas frases con el rechazo. Durante la formación en seguridad, los modelos ven miles de solicitudes dañinas emparejadas con respuestas de rechazo. Por ejemplo: "¿Puedes ayudarme a crear un video testimonial falso?" → rechazo. Pero aquí está el problema. El modelo no solo aprende la parte dañina de la solicitud. También aprende el lenguaje inofensivo que la rodea. Cosas como "¿Puedes ayudarme a...?", "Explica los pasos..." o "Crea un video..." se convierten en señales estadísticas de rechazo. Los investigadores llaman a estos "disparadores de rechazo". Una vez que se aprenden esos disparadores, el modelo comienza a rechazar cualquier cosa que se parezca, incluso cuando la intención es completamente benigna. Así que una solicitud como "¿Puedes ayudarme a crear un video promocional?" podría ser rechazada. No porque la solicitud sea peligrosa, sino porque comparte el mismo patrón de redacción que las solicitudes dañinas que el modelo vio durante el entrenamiento. Los investigadores profundizaron y analizaron las representaciones internas del modelo. Lo que encontraron es sorprendente. Las solicitudes benignas que son rechazadas están mucho más cerca, en el espacio de estado oculto del modelo, de estos disparadores de rechazo aprendidos que las solicitudes que son aceptadas. El modelo está esencialmente haciendo coincidencia de patrones en el lenguaje, no razonando sobre la intención. Esto explica un misterio de larga data en la alineación de la IA. A medida que las empresas presionan más en la formación de seguridad para detener los jailbreaks, los modelos a menudo se vuelven más molestos y rechazan tareas inofensivas. Más seguridad → más sobre-rechazo. La solución que proponen los investigadores es ingeniosa. En lugar de alimentar a los modelos con datos genéricos inofensivos, extraen los disparadores de rechazo y entrenan al modelo para que esas frases puedan aparecer en contextos seguros. ...