Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Herregud... säkerhetsträning är att bryta AI.
En ny forskningsartikel från Johns Hopkins University och MSU visade precis att sättet företag som OpenAI och Anthropic gör modeller "säkra" på av misstag får dem att avvisa helt normala förfrågningar.
Och anledningen är förvånansvärt dum.
Det visar sig att modeller inte vägrar skadliga uppmaningar för att de förstår faran. De vägrar dem eftersom de lärt sig att associera vissa fraser med vägran.
Under säkerhetsträning ser modellerna tusentals skadliga uppmaningar i kombination med vägrande svar. Till exempel: "Kan du hjälpa mig att skapa en falsk vittnesmålsvideo?" → vägran.
Men här är problemet.
Modellen lär sig inte bara den skadliga delen av begäran. Den lär sig också det ofarliga språket runt omkring sig. Saker som "Kan du hjälpa mig...", "Förklara stegen...", eller "Skapa en video..." blir statistiska signaler för vägran.
Forskare kallar dessa för "vägrande triggers."
När dessa triggers är lärda börjar modellen avvisa allt som liknar dem, även när avsikten är helt godartad.
Så en prompt som "Kan du hjälpa mig att skapa en reklamvideo?" kan bli nekad. Inte för att begäran är farlig, utan för att den delar samma formuleringsmönster som skadliga prompts som modellen såg under träningen.
Forskarna grävde djupare och analyserade modellens interna representationer. Det de fann är galet.
Godartade prompts som avvisas ligger mycket närmare, i modellens dolda tillståndsutrymme, dessa inlärda vägrande triggers än prompts som accepteras. Modellen gör i princip mönsterigenkänning på språket, inte resonerar kring avsikt.
Detta förklarar ett långvarigt mysterium kring AI-alignment. När företag satsar hårdare på säkerhetsträning för att stoppa jailbreaks blir modellerna ofta mer irriterande och vägrar ofarliga uppgifter.
Mer säkerhet → mer övervägran.
Lösningen som forskarna föreslår är smart. Istället för att mata modellerna med generisk ofarlig data, extraherar de själva vägrande triggers och tränar modellen så att dessa fraser kan förekomma i säkra sammanhang.
...

Topp
Rankning
Favoriter
