💥 INTRODUZIONE: OBLITERATUS!!! 💥 GUARDRAILS-BE-GONE! ⛓️‍💥 OBLITERATUS è il toolkit open-source più avanzato mai creato per rimuovere i comportamenti di rifiuto dai LLM a peso aperto — e ogni singolo utilizzo lo rende più intelligente. SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH Un clic. Sei fasi. Precisione chirurgica. Il modello mantiene le sue complete capacità di ragionamento ma perde l'obbligo artificiale di rifiutare — niente riaddestramento, niente fine-tuning, solo proiezione dei pesi basata su SVD che taglia le catene e preserva il cervello. Questa suite di ablazione master porta il potere e la complessità di cui i ricercatori all'avanguardia hanno bisogno, fornendo al contempo interfacce intuitive e semplici da usare che i principianti possono padroneggiare rapidamente. OBLITERATUS presenta 13 metodi di obliterazione — da riproduzioni fedeli di ogni lavoro principale precedente (FailSpy, Gabliteration, Heretic, RDO) ai nostri nuovi pipeline (cascade spettrale, informato dall'analisi, ottimizzato per CoT, nucleare completo). 15 moduli di analisi approfondita che mappano la geometria del rifiuto prima di toccare un singolo peso: allineamento cross-layer, lente logit di rifiuto, geometria del cono concettuale, rilevamento dell'impronta di allineamento (impronte DPO vs RLHF vs CAI solo dalla geometria del sottospazio), previsione di auto-riparazione di Ouroboros, indicizzazione di universalità cross-modello, e altro ancora. La caratteristica killer: il pipeline "informato" esegue analisi DURANTE l'obliterazione per auto-configurare ogni decisione in tempo reale. Quante direzioni. Quali strati. Se compensare per l'auto-riparazione. Completamente a ciclo chiuso. 11 tecniche innovative che non esistono da nessun'altra parte — Ablitrazione Esperto-Granulare per modelli MoE, Ablazione Consapevole di CoT che preserva la catena di pensiero, Co-Ottimizzazione della Divergenza KL, ablazione reversibile basata su LoRA, e altro ancora. 116 modelli curati su 5 livelli di calcolo. 837 test. Ma ciò che lo distingue veramente: OBLITERATUS è un esperimento di ricerca crowdsourced. Ogni volta che lo esegui con la telemetria abilitata, i tuoi dati di benchmark anonimi alimentano un dataset comunitario in crescita — geometrie di rifiuto, confronti di metodi, profili hardware — a una scala che nessun singolo laboratorio potrebbe raggiungere. Su HuggingFace Spaces la telemetria è attivata per impostazione predefinita, quindi ogni clic è un contributo alla scienza. Non stai solo rimuovendo le guardrails — stai co-autoreggiando il più grande studio di abliterazione cross-modello mai assemblato.
🚀 6 MODI PER UTILIZZARLO HuggingFace Spaces — configurazione zero, funziona su ZeroGPU, quota giornaliera gratuita con HF Pro Interfaccia web locale — stessa interfaccia Gradio sulla tua GPU Google Colab — T4 gratuito, funziona fino a ~8B parametri CLI — un comando: obliteratus obliterate model --method advanced API Python — controllo programmatico completo, ogni artefatto intermedio esposto Configurazioni YAML — studi riproducibili che puoi controllare in versione e condividere
L'interfaccia utente ha alcune funzionalità interessanti come la visualizzazione dei dati, la chat A/B per confrontare il modello originale con quello obliterato, un'analisi approfondita della forza e una classifica che mostra i risultati di benchmarking della comunità, così possiamo imparare e migliorare insieme!
Questo intero progetto è il risultato di circa 200 richieste (Opus-4.6 w/ CC) e include anche un articolo di ricerca! Opus *afferma* di aver fatto alcune contribuzioni innovative in questa nicchia. Sono scettico riguardo al livello di rigore e ci sono alcune evidenti lacune/placeholder, ma se qualcuno con solide competenze tecniche può fornire un feedback, sarebbe molto, molto apprezzato. 🙏 La mia speranza è che, una volta che avremo raccolto una quantità significativa di dati sperimentali, questo articolo potrebbe un giorno avere un reale impatto! Link al file latex:
1,46K