🚨 Joder... la formación en seguridad es romper la IA. Un nuevo artículo de investigación de la Universidad Johns Hopkins y MSU acaba de demostrar que la forma en que empresas como OpenAI y Anthropic hacen que los modelos sean "seguros" está haciendo que rechazen solicitudes perfectamente normales. Y la razón es sorprendentemente absurda. Resulta que los modelos no rechazan los prompts dañinos porque entiendan el peligro. Las rechazan porque aprendieron a asociar ciertas frases con la negativa. Durante el entrenamiento de seguridad, los modelos ven miles de indicaciones dañinas acompañadas de respuestas de rechazo. Por ejemplo: "¿Puedes ayudarme a crear un vídeo testimonial falso?" → rechazo. Pero aquí está el problema. El modelo no solo aprende la parte perjudicial de la petición. También aprende el lenguaje inofensivo que la rodea. Cosas como "¿Puedes ayudarme...", "Explica los pasos...", o "Crea un vídeo..." se convierten en señales estadísticas de rechazo. Los investigadores llaman a estos "desencadenantes de negativa". Una vez que se aprenden esos desencadenantes, el modelo empieza a rechazar cualquier cosa que parezca similar, incluso cuando la intención es completamente benigna. Así que un prompt como "¿Puedes ayudarme a crear un vídeo promocional?" podría ser rechazado. No porque la petición sea peligrosa, sino porque comparte el mismo patrón de redacción que las indicaciones dañinas que el modelo vio durante el entrenamiento. Los investigadores profundizaron y analizaron las representaciones internas del modelo. Lo que encontraron es una locura. Los prompts benignos que son rechazados están mucho más cerca, en el espacio de estados ocultos del modelo, a estos desencadenantes de rechazo aprendidos que a los prompts que son aceptados. El modelo básicamente hace coincidencia de patrones sobre el lenguaje, no el razonamiento sobre la intención. Esto explica un misterio de larga data en la alineación de la IA. A medida que las empresas insisten más en la formación en seguridad para evitar las fugas de jailbreak, los modelos suelen volverse más molestos y rechazar tareas inocuas. Más seguridad → más rechazo excesivo. La solución que proponen los investigadores es ingeniosa. En lugar de alimentar a los modelos con datos genéricos e inocuos, extraen ellos mismos los desencadenantes de rechazo y entrenan al modelo para que esas frases puedan aparecer en contextos seguros. ...