El CEO de Anthropic dice que romper los sistemas de IA podría convertirse en una cuestión de «vida o muerte»

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-07-30 14:15:02

Actualmente, Anthropic parece el competidor más relevante de OpenAI. La startup acaba de lanzar un nuevo chatbot, Claude 2, que está al mismo nivel que ChatGPT, pero es más cauteloso.

«Desde luego, prefiero que Claude sea aburrido a que Claude sea peligroso», dice Dario Amodei sobre las restricciones de seguridad de Claude. Amodei fue jefe del equipo de seguridad de la IA en OpenAI y ahora es director general de Anthropic. En el futuro, un chatbot totalmente capaz y seguro es posible, pero sigue siendo una «ciencia en evolución», dice Amodei.

A Amodei le preocupan los llamados jailbreaks, avisos específicos que hacen que un modelo genere contenidos que se supone que no debe generar según las especificaciones del desarrollador, o según la ley. En la actualidad, estos exploits pueden dar lugar a resultados triviales, pero eso podría cambiar.

«Pero si miro hacia dónde se dirigen las curvas de escala, en realidad me preocupa profundamente que en dos o tres años lleguemos a un punto en el que los modelos puedan, no sé, hacer cosas muy peligrosas con la ciencia, la ingeniería, la biología, y entonces una fuga podría ser de vida o muerte», dice Amodei.

«Creo que estamos mejorando con el tiempo a la hora de abordar las fugas. Pero también creo que los modelos son cada vez más potentes».

El CEO de Anthropic ve «tal vez un 10 por ciento de posibilidades» de que los sistemas de IA a escala fallen porque no hay suficientes datos, y los datos sintéticos son inexactos. «Eso congelaría las capacidades al nivel actual».

Si no se detiene esta tendencia de escalado, Amodei espera ver casos graves de uso indebido de la IA, como la generación masiva de noticias falsas, en los próximos dos o tres años.

Seguridad de la IA: ¿Es mejor la opinión de las máquinas que la de los humanos?

A diferencia de OpenAI y otras empresas de IA, Anthropic se basa en reglas fijas y en la evaluación de la IA más que en la retroalimentación humana. El sistema de IA recibe un conjunto de directrices éticas y morales, una «constitución», que Anthropic ha recopilado de diversas fuentes, como leyes o políticas empresariales. Un segundo sistema de IA evalúa si las generaciones del primer sistema siguen las normas y proporciona información.

Las pruebas internas mostraron que la seguridad de este enfoque era similar en algunas áreas a la de ChatGPT, que se entrenó con retroalimentación humana (RLHF), y «sustancialmente más fuerte» en algunas áreas, dijo Amodei. En general, los guardarraíles de Claude son más fuertes, según Amodei.

Para ver la entrevista completa con Amodei, escuche el podcast «Hard Fork» del New York Times. El chatbot Claude 2 de Anthropic se está implantando actualmente en Estados Unidos y Reino Unido.

Deja una opinión

Deje una respuesta

🤖 AI MAFIA
Logo