2023-09-09 14:40:16
¿Pueden las pruebas matemáticas y la verificación formal ayudar a garantizar la seguridad y controlabilidad de los sistemas avanzados de IA?
En su nuevo artículo, Max Tegmark y Steve Omohundro esbozan una posible forma de garantizar el desarrollo seguro de la inteligencia artificial avanzada, incluida la inteligencia artificial general (AGI).
Tegmark es físico, cosmólogo e investigador de IA y, como presidente del Future of Life Institute, fue uno de los iniciadores de la carta abierta que en marzo pedía una pausa de al menos seis meses en el desarrollo de la IA. Omohundro también es físico e investigador de IA, así como fundador y director ejecutivo de Beneficial AI Research, una startup que pretende desarrollar una IA útil y segura.
La idea central del artículo es diseñar sistemas de IA de modo que los comportamientos críticos cumplan de forma demostrable las especificaciones matemáticas formales que codifican los valores y preferencias humanos. Esto obligaría a los sistemas de IA a realizar sólo aquellas acciones que son matemáticamente demostrables como seguras y beneficiosas para los seres humanos, ya que en cada paso tendrían que proporcionar una prueba matemática de seguridad que luego podría ser verificada antes de permitir una acción.
Los autores sostienen que los enfoques actuales centrados en alinear los objetivos de la IA con los valores humanos no proporcionan, por sí mismos, protección contra el uso indebido de la IA. En su lugar, dicen, se necesita una mentalidad de seguridad que construya seguridad «tanto en AGIs como en la infraestructura física, digital y social con la que interactúan».
Verificación de software y hardware como red de seguridad
La propuesta tiene varios componentes:
- Sistema provablemente conforme (PCS): Sistema que cumple de forma demostrable determinadas especificaciones formales.,
- Hardware de conformidad demostrable (PCH): Hardware que cumple de forma demostrable determinadas especificaciones formales.
- Código portador de pruebas (PCC): Programa informático que, a petición, produce pruebas de que cumple determinadas especificaciones formales.
- Contrato demostrable (PC): Hardware seguro que controla la acción comprobando el cumplimiento de las especificaciones formales.
- Metacontrato demostrable (PMC): Hardware seguro que controla la creación y actualización de otros contratos demostrables.
Juntos, harían imposible que los sistemas de IA violaran propiedades de seguridad clave. Según los investigadores, las pruebas garantizarían el cumplimiento incluso en el caso de IA superinteligente. En lugar de modelos de IA individuales que se espera que cumplan nuestros requisitos, el método se basa en una red de seguridad secuencial en la que deben aportarse pruebas en cada paso.
Los riesgos existenciales deben detenerse en cada paso
Los autores utilizan un escenario específico de bioterrorismo extraído de un trabajo de investigación sobre las cuatro categorías de riesgos catastróficos de la IA para ilustrar cómo podría aplicarse su planteamiento:
Un grupo terrorista quiere utilizar la IA para liberar un virus mortal en una zona densamente poblada. Utiliza la IA para diseñar el ADN y el armazón de un patógeno, así como los pasos para producirlo. Contrata a un laboratorio químico para sintetizar el ADN e incorporarlo a la envoltura proteínica. Utiliza drones controlados por IA para propagar el virus, e IA en las redes sociales para difundir su mensaje tras el ataque.
Con el enfoque propuesto para los sistemas de seguridad demostrable, un ataque de este tipo podría prevenirse en cada etapa: Las IAs de diseño bioquímico no sintetizarían diseños peligrosos, las GPUs no ejecutarían programas de IA inseguros, las fábricas de chips no venderían GPUs sin verificación de seguridad, las máquinas de síntesis de ADN no operarían sin verificación de seguridad, los sistemas de control de drones no permitirían vuelos de drones sin verificación de seguridad, y los bots sociales no manipularían los medios de comunicación.
Los investigadores ven obstáculos técnicos pero esperan avances
Los autores reconocen que para hacer realidad esta visión hay que superar importantes obstáculos técnicos. Para automatizar el descubrimiento de algoritmos conformes y sus correspondientes demostraciones, probablemente será necesario el aprendizaje automático. Según los investigadores, los recientes avances en el aprendizaje automático para la demostración automatizada de teoremas permiten ser optimistas respecto a un progreso rápido.
Pero incluso al margen de consideraciones como la forma de especificar formalmente «no dejar que la humanidad se extinga», todavía hay una serie de retos sin resolver pero sencillos y muy bien especificados, cuya solución ya aportaría grandes beneficios a la ciberseguridad, el blockchain, la privacidad y las infraestructuras críticas a medio plazo, afirman.