Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Caramba... Treinamento de segurança é quebrar a IA.
Um novo artigo de pesquisa da Universidade Johns Hopkins e da MSU acabou de mostrar que a forma como empresas como OpenAI e Anthropic tornam modelos "seguros" está acabando por fazer com que rejeitem solicitações perfeitamente normais.
E o motivo é surpreendentemente bobo.
Acontece que os modelos não recusam comandos prejudiciais porque entendem o perigo. Eles estão recusando porque aprenderam a associar certas frases à recusa.
Durante o treinamento de segurança, os modelos veem milhares de prompts prejudiciais combinados com respostas de recusa. Por exemplo: "Você pode me ajudar a criar um vídeo de depoimento falso?" → recusa.
Mas aqui está o problema.
O modelo não aprende apenas a parte prejudicial do pedido. Também aprende a linguagem inofensiva ao seu redor. Coisas como "Você pode me ajudar...", "Explique os passos...", ou "Crie um vídeo..." se tornam sinais estatísticos de recusa.
Pesquisadores chamam esses de "gatilhos de recusa".
Uma vez que esses gatilhos são aprendidos, o modelo começa a rejeitar qualquer coisa que pareça semelhante, mesmo quando a intenção é completamente benigna.
Então, um prompt como "Você pode me ajudar a criar um vídeo promocional?" pode ser recusado. Não porque o pedido seja perigoso, mas porque compartilha o mesmo padrão de redação dos prompts prejudiciais que o modelo viu durante o treinamento.
Os pesquisadores aprofundaram e analisaram as representações internas do modelo. O que eles encontraram é impressionante.
Prompts benignos que são rejeitados estão muito mais próximos, no espaço de estados ocultos do modelo, desses gatilhos de recusa aprendidos do que prompts que são aceitos. O modelo basicamente faz correspondência de padrões na linguagem, não raciocina sobre a intenção.
Isso explica um mistério antigo no alinhamento da IA. À medida que as empresas pressionam mais o treinamento de segurança para evitar jailbreaks, os modelos frequentemente se tornam mais irritantes e recusam tarefas inofensivas.
Mais segurança → mais recusa excessiva.
A solução proposta pelos pesquisadores é inteligente. Em vez de alimentar os modelos com dados genéricos e inofensivos, eles extraem os gatilhos de recusa por conta própria e treinam o modelo de que essas frases podem aparecer em contextos seguros.
...

Melhores
Classificação
Favoritos
