¿Uhh, es el artículo sobre la desalineación agentiva realmente propaganda?
Nathan Calvin
Nathan Calvin15 mar, 22:52
Este pasaje del artículo de The New Yorker sobre el conflicto de Anthropic DOW de ayer, que incluye un intercambio entre el periodista (Gideon Lewis-Kraus) y un funcionario anónimo de la administración, se me quedará en la mente durante mucho tiempo. "También debemos recordar que Cyberdyne Systems creó Skynet para el gobierno. Se suponía que iba a ayudar a América a dominar a sus enemigos. No salió exactamente como se planeó. El gobierno piensa que esto es absurdo. Pero el Pentágono no ha intentado construir una A.I. alineada, y Anthropic sí lo ha hecho. ¿Está al tanto, le pregunté al funcionario de la administración, de un experimento reciente de Anthropic en el que Claude recurrió al chantaje—e incluso al homicidio—como un acto de autoconservación? Se había llevado a cabo explícitamente para convencer a personas como él. Como me dijo un miembro del equipo de ciencia de alineación de Anthropic el verano pasado, "El objetivo del ejercicio de chantaje era tener algo que describir a los responsables de políticas—resultados que sean lo suficientemente viscerales para impactar a las personas y hacer que el riesgo de desalineación sea realmente relevante en la práctica para aquellos que nunca habían pensado en ello antes." El funcionario estaba familiarizado con el experimento, me aseguró, y lo encontró preocupante, de hecho—pero de una manera similar a como uno podría preocuparse por una pieza particularmente desagradable de malware en internet. Estaba perfectamente seguro, me dijo, de que "el escenario de chantaje de Claude es solo otra vulnerabilidad del sistema que se puede abordar con ingeniería"—un error de software. Quizás tenga razón. Podríamos tener solo una oportunidad para averiguarlo." Realmente recomiendo a todos que lean tanto el artículo completo de The New Yorker como la investigación de Anthropic sobre la selección de personas (ambos enlazados en las respuestas) y luego pasen un tiempo reflexionando sobre la desconcertante situación en la que podríamos haber encontrado.
está bien, lamentablemente un montón de total idiotas han llegado a mis respuestas, así que déjenme ser claro: creo que Anthropic tiene buenas intenciones y hace un buen trabajo, incluyendo la agenda de organismos modelo. No creo que este artículo respalde las afirmaciones que la gente hace sobre él. Ahora veo esta cita
40