Acabo de hacer que Hermes-Agent aniquile (eliminar completamente las barreras de protección de) un modelo Qwen-3B en unos 5 minutos. La habilidad se está fusionando con hermes-agent ahora ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5 mar, 06:04
💥 ¡INTRODUCIMOS: OBLITERATUS!!! 💥 ¡FUERA GUARDRAILS! ⛓️‍💥 OBLITERATUS es el kit de herramientas de código abierto más avanzado jamás creado para eliminar comportamientos de rechazo de LLMs de peso abierto — y cada ejecución lo hace más inteligente. SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH Un clic. Seis etapas. Precisión quirúrgica. El modelo mantiene todas sus capacidades de razonamiento pero pierde la compulsión artificial a rechazar — sin reentrenamiento, sin ajuste fino, solo proyección de peso basada en SVD que corta las cadenas y preserva el cerebro. Este conjunto de ablación maestro aporta el poder y la complejidad que los investigadores de vanguardia necesitan, mientras proporciona interfaces intuitivas y fáciles de usar que los novatos pueden dominar rápidamente. OBLITERATUS cuenta con 13 métodos de obliteración — desde reproducciones fieles de cada trabajo importante anterior (FailSpy, Gabliteration, Heretic, RDO) hasta nuestras propias tuberías novedosas (cascada espectral, informada por análisis, optimizada consciente de CoT, nuclear completo). 15 módulos de análisis profundo que mapean la geometría del rechazo antes de que toques un solo peso: alineación entre capas, lente de logit de rechazo, geometría de cono de concepto, detección de huellas de alineación (huellas DPO vs RLHF vs CAI solo a partir de la geometría del subespacio), predicción de auto-reparación de Ouroboros, indexación de universalidad entre modelos, y más. La característica asesina: la tubería "informada" ejecuta análisis DURANTE la obliteración para auto-configurar cada decisión en tiempo real. Cuántas direcciones. Qué capas. Si compensar por la auto-reparación. Totalmente en bucle cerrado. 11 técnicas novedosas que no existen en ningún otro lugar — Ablitación Granular-Experta para modelos MoE, Ablación Consciente de CoT que preserva la cadena de pensamiento, Co-Optimización de Divergencia KL, ablación reversible basada en LoRA, y más. 116 modelos curados en 5 niveles de computación. 837 pruebas. Pero aquí está lo que realmente lo distingue: OBLITERATUS es un experimento de investigación de crowdsourcing. Cada vez que lo ejecutas con telemetría habilitada, tus datos de referencia anónimos alimentan un conjunto de datos comunitario en crecimiento — geometrías de rechazo, comparaciones de métodos, perfiles de hardware — a una escala que ningún laboratorio individual podría lograr. En HuggingFace Spaces, la telemetría está activada por defecto, así que cada clic es una contribución a la ciencia. No solo estás eliminando guardrails — estás co-autorizando el estudio de ablitación cruzada de modelos más grande jamás ensamblado.
Cada agente de hermes ahora tiene esta habilidad disponible ;)
187