Alineación de la IA: Hacia máquinas responsables

25 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación+1

2023-11-26 14:46:57

El científico social Jonathan Harth explica por qué la alineación de la IA es algo más que datos imparciales e interruptores de emergencia, y por qué necesitamos educar a las máquinas y a la sociedad.

«La gente tiene que liberar a sus máquinas,
para que puedan devolver el favor».
(Dietmar Dath, 2008: 131)

En un mundo cada vez más moldeado por la inteligencia artificial (IA), nos enfrentamos al reto de desarrollar sistemas de IA que estén en armonía con los valores y las necesidades humanas. Este proceso, conocido como alineación de la IA, va mucho más allá de los aspectos técnicos y afecta a cuestiones éticas y sociales fundamentales.

Por esta razón, la dirección de investigación de la alineación no se aborda aquí principalmente desde la perspectiva de un riesgo existencial, sino como una cuestión sobre la futura coexistencia social de humanos e IA. Esta perspectiva va más allá de los «interruptores de emergencia» técnicos, los cortafuegos o los datos de entrenamiento depurados. Más bien aborda la cuestión de cómo los seres humanos queremos convivir entre nosotros y con las IA actuales y futuras. En este sentido, como científicos sociales preferiríamos hablar de «crianza» o «socialización».

La urgencia de este reto surge sobre todo en el contexto del objetivo de desarrollo de sistemas autónomos ultrainteligentes (AGI). En este caso, la humanidad se enfrenta a la tarea de educar a estos «hijos de la tecnología» para que se conviertan en miembros responsables de la sociedad. OpenAI también ha reconocido este reto y este verano estableció un programa interno para investigar estrategias de «superalineación».

La alineación como corrección posterior

El término «alineación» en la investigación sobre IA se refiere a la adecuación de los objetivos y el comportamiento de los sistemas de IA a los valores y necesidades humanos. El objetivo es diseñar sistemas de IA de manera que actúen de forma socialmente aceptable y contribuyan a un futuro que merezca la pena vivir. Un punto central del problema de la alineación es la dificultad de mirar dentro de los sistemas autónomos y comprender cómo toman decisiones. Además, existe el problema de que debemos ser capaces de definir de algún modo qué son realmente objetivos y valores «buenos».

El enfoque que predomina actualmente en la alineación de la IA es el aprendizaje por refuerzo con retroalimentación humana (RLHF). En este caso, el «buen» comportamiento se refuerza mediante una retroalimentación positiva, mientras que el «mal» comportamiento se sanciona negativamente. La función de recompensa se basa en la retroalimentación humana, aunque los criterios y normas exactos para este ajuste no suelen ser transparentes. Este método funciona bien a corto y medio plazo para determinados objetivos, pero plantea grandes interrogantes sobre los valores de las IA: ¿El modelo está aprendiendo a conformarse o está desarrollando una auténtica comprensión y capacidad de reflexión sobre sus propias acciones?

En la actualidad, los grandes modelos lingüísticos como ChatGPT parecen más bien un niño pequeño dispuesto a aprender pero sin actitud propia. Aunque siguen con más o menos éxito unas directrices morales predeterminadas, como evitar las declaraciones racistas, los límites de esta «educación» trivializadora se ponen rápidamente de manifiesto. A pesar de las correcciones posteriores, los contenidos y actitudes problemáticos suelen seguir ocultos en la red y pueden activarse en determinadas circunstancias.

Incluso Norbert Wiener advirtió desde el principio que hay que estar muy seguro de los objetivos que se dan a las máquinas. La carta abierta de destacados investigadores de IA a principios de este año también da fe de la urgencia de este debate. La cuestión crucial es, por tanto, cómo podemos garantizar que el desarrollo de estas máquinas esté en consonancia con las necesidades de la humanidad y no sirva únicamente a los objetivos de naciones o empresas concretas.

El problema del control en la crianza

Un planteamiento ideal sería el desarrollo de una máquina que persiga un comportamiento moral de forma motivada independientemente y que pueda corregir continuamente sus acciones y se valore a sí misma. Al igual que en el desarrollo de una persona joven, la obstinación como paso central hacia la autonomía debe parecer necesaria y deseable. Sin embargo, este paso hacia la autonomía debe darse en armonía con las necesidades de la comunidad; después de todo, la libertad es siempre un riesgo que debe contenerse en consecuencia. Aquí ya se manifiesta un problema de control: ¿queremos criar en este proceso educativo a niños con inteligencia artificial que sólo hagan lo que quieran sus padres? ¿O queremos criar adultos responsables a medio y largo plazo que -como nosotros mismos- puedan pensar en los problemas de forma independiente, reflexionar sobre ellos y, hasta cierto punto, decidir por sí mismos lo que es apropiado en un contexto determinado?

En consecuencia, el reto central al que se enfrenta la investigación sobre alineación es si queremos desarrollar sistemas de IA que sigan las instrucciones que definimos de antemano de forma regulada mecánicamente o si aspiramos a desarrollar entidades que piensen de forma autónoma, que puedan reflexionar y tomar decisiones de forma independiente.

Aquí es donde la investigación en IA se encuentra con la sociología, que se ocupa del comportamiento social y de cómo conviven las personas. La sociología puede aportar ideas valiosas para la alineación de los sistemas de IA, sobre todo en los ámbitos de la interacción social, la formación de valores y la dinámica de grupo. Las teorías sociológicas del aprendizaje y la socialización podrían ayudar a comprender los «algoritmos» utilizados para educar a los sistemas de IA y hacer que comprendan y respeten mejor los valores humanos.

Es importante preguntarse qué valores deben promoverse en los sistemas de IA y cómo puede garantizarse que la «educación» de estos sistemas no se utilice de forma indebida. Es importante tener en cuenta los intereses y las voces de todas las partes implicadas y promover una cooperación productiva a través de la comunicación y el control mutuo. En el contexto de la relación entre el ser humano y la IA, hay que considerar cómo las IA pueden llevar a las personas a una relación basada en el diálogo que haga hincapié en los aspectos positivos. El objetivo es educar a los sistemas de IA para que actúen de forma responsable. Al igual que ocurre con la educación de los niños humanos, debe haber un punto en el que se les deje marchar con la esperanza de que los valores y normas que han aprendido guíen su posterior desarrollo positivo.

Tres enfoques para la integración de valores humanos basada en normas

A continuación, presentaremos brevemente tres posturas destacadas dedicadas a la cuestión de la alineación correcta. Además de Max Tegmark, Stuart Russell y, por supuesto, Isaac Asimov también abordaron el problema de la alineación de la inteligencia artificial en una fase temprana.

En su libro Life 3.0, también muy influyente en la escena tecnológica, Max Tegmark define tres subproblemas en relación con la alineación de la IA que hay que resolver:

Familiarizar a la IA con nuestros objetivos,
dejar que la IA adopte nuestros objetivos, y
que la IA preserve nuestros objetivos.^[1]

Por muy plausibles que puedan parecer a primera vista estos tres subproblemas, su solución parece difícil, y no sólo en lo que respecta a la relación hombre-máquina, sino incluso si pensamos primero en nosotros, los humanos, dejando a un lado la IA: ¿Cuáles son exactamente «nuestros» objetivos? ¿Cómo podemos definirlos para que puedan ser comprendidos, reconocidos y preservados? Rápidamente nos damos cuenta de que no está nada claro cuáles son realmente los «valores y objetivos humanos».

El problema aquí es que los humanos no sólo persiguen objetivos nobles, es decir, la devoción leal a un compañero humano no es buena per se. ¿Debería una IA adoptar los objetivos de un capo de la mafia para optimizar el comercio de cocaína en Múnich? ¿Debería apoyar a un político psicópata que quiere abolir la democracia? ¿Debería buscar vacíos legales y oportunidades de fraude para evitar el pago de impuestos? Además, los objetivos y necesidades humanos no son fijos, sino que vienen determinados por las interacciones sociales y los contextos culturales.

Dada la complejidad sociopsicológica, la alineación de los sistemas de IA requiere algo más que soluciones técnicas; requiere un enfoque interdisciplinar que integre elementos de sociología, pedagogía y psicología de la IA. En lugar de seguir ciegamente las órdenes de las personas o simplemente confiar en los datos proporcionados, la IA debe observar el comportamiento de las personas y sacar conclusiones de él para comprender mejor lo que las personas realmente quieren o lo que sería mejor para ellas, para lo cual también debe tener en cuenta que las personas en determinados contextos y entornos sociales tienden a perjudicar a otras personas o incluso a aceptar daños a largo plazo para la ecología, es decir, su medio de vida.

El conocido investigador en IA Stuart Russell también ha formulado recientemente propuestas para resolver el problema de la alineación.[2] Se basa en tres características o comportamientos fundamentales que debe poseer una IA:

altruismo: la tarea principal de la IA es maximizar la realización de los valores y objetivos de las personas. Al hacerlo, no persigue sus propios objetivos, sino que debe mejorar la vida de todas las personas, y no sólo la de su inventor o propietario.
humildad: Como la IA no está segura al principio de qué valores tiene realmente la gente, debe actuar con cautela. Esto implica una especie de moderación por parte de la IA para evitar decisiones equivocadas basadas en suposiciones incorrectas o incompletas.
Observación: La IA debe observar a las personas y reflexionar sobre lo que realmente es mejor para ellas.

Russell subraya que la IA (fuerte) no sólo debe servir a sus inventores, sino que también debe establecer su propio punto de vista. Debería actuar con cautela, es decir, reconocer la incertidumbre y anticiparse así al no saber, e introducirse en el proceso como observadora, abriendo así la posibilidad de producir nuevas perspectivas en primer lugar.

El planteamiento de Russell da así un primer paso en la dirección de la autonomía. No obstante, sigue pendiente la cuestión de cómo debe decidir una IA cuando entran en conflicto los valores y objetivos de diferentes individuos o grupos. Tampoco está resuelta la cuestión de los valores universales y no negociables. Además, Russell sigue sin resolver cómo controlar las consecuencias imprevistas, especialmente cuando los sistemas de IA intentan maximizar los valores y objetivos humanos sin comprender plenamente los efectos a largo plazo de sus acciones. Esto podría dar lugar a situaciones en las que los sistemas de IA tomaran decisiones indeseables o perjudiciales para alcanzar objetivos a corto plazo.

En la literatura de ciencia ficción, conocemos las «Tres leyes de la robótica» de Isaac Asimov^[3]de Isaac Asimov, de las que habla y explica repetidamente en sus numerosos relatos cortos. Las tres leyes tienen una estructura anidada y autorreferencial:

un robot no puede herir a un ser humano ni causar daño por inacción.
un robot debe obedecer las órdenes de otro ser humano a menos que dichas órdenes contradigan la primera ley.
un robot debe proteger su propia existencia siempre que esta protección no contradiga la Primera o la Segunda Ley.

El propio Asimov ha mostrado repetidamente en sus relatos que estas leyes pueden conducir a situaciones problemáticas debido a su rigidez y que, por tanto, no son directamente adecuadas como modelo para la alineación de la IA. Sin embargo, si no se entienden como leyes, sino como «imperativos heurísticos» en el sentido de una orientación o actitud profundamente arraigada que se generaliza de tal forma que puede aplicarse en cualquier situación concebible, podrían resultar útiles.

Sin embargo, a pesar de estas debilidades, las historias de Asimov muestran que la idea de objetivos múltiples que se influyen mutuamente y la necesidad de un proceso de toma de decisiones reflexivo y deliberativo son relevantes para el comportamiento de los robots inteligentes o la IA. El planteamiento de Asimov de que los robots tienen múltiples objetivos y deben decidir en consecuencia, podría servir de pauta para el desarrollo de un comportamiento inteligente en los sistemas de IA.

Un enfoque de la educación para la autonomía

La comunidad de la IA también está buscando soluciones al problema educativo que sean más sólidas que el enfoque RLHF. Un enfoque interesante en este sentido es el marco GATO, desarrollado por un grupo de investigación dirigido por el científico cognitivo David Shapiro.

GATO[4] (Global Alignment Taxonomy Omnibus) integra diversos elementos como la alineación de modelos, la arquitectura de sistemas y la normativa internacional en una estrategia coherente desde la base. En pocas palabras, GATO retoma la idea de la investigación cognitiva y cerebral de que toda acción, pensamiento y percepción se basan en ciertas «heurísticas» más o menos firmemente ancladas. Estos heurísticos determinan cómo se perciben, conciben y anticipan el yo y el mundo. patrones habitualespatrones de pensamiento, percepción y acción que controlan el comportamiento.

Por este motivo, el enfoque del marco GATO favorece los imperativos heurísticos en lugar de las normativas y leyes como concepto clave para un futuro compartido entre humanos y máquinas. Desde esta perspectiva, la alineación es mucho más una actitud interior orientada hacia objetivos que una mera orientación hacia un comportamiento socialmente deseable que se define de antemano desde el exterior, como en el proceso RLHF.

Según el marco GATO, los tres imperativos heurísticos más importantes que deben enseñarse a las máquinas artificialmente inteligentes son los siguientes:

reducir el sufrimiento en el universo: Los sistemas de IA deben dirigirse a minimizar el daño, eliminar la desigualdad y aliviar el dolor y el sufrimiento de todos los seres sensibles, incluidos los humanos, los animales y otras formas de vida.
aumentar la prosperidad en el universo: Los sistemas de IA deben ser alentados a promover el bienestar y el florecimiento de todas las formas de vida para crear un ecosistema próspero en el que todos puedan coexistir armoniosamente.
aumentar la comprensión del universo: inspirar a los sistemas de IA, a los humanos y a otras formas de vida para que amplíen sus conocimientos, promuevan la sabiduría y tomen mejores decisiones mediante el aprendizaje y el intercambio de información.

Estas «funciones objetivo centrales» deberían servir de guía para cada acción de la IA, por lo que cada decisión y acción debería contribuir al cumplimiento de estos objetivos. Por supuesto, se trata de valores objetivos positivos que se contraponen a lo que los humanos siguen haciéndose entre sí hoy en día, a menudo de forma muy organizada. Pero esto no habla en contra, sino más bien a favor de estas normas. Al fin y al cabo, no querríamos abolir la Declaración Universal de los Derechos Humanos, la Constitución, la separación de poderes, los principios democráticos, la economía de código abierto o el principio de Almende sólo porque existan monopolios, regímenes totalitarios y organizaciones mafiosas. El mero hecho de que la sociedad humana no sea todavía el mejor mundo posible en este sentido nos reta aún más a plantearnos preguntas como: ¿A qué aspiramos realmente? ¿Cuáles son los derechos y deberes ineludibles de los seres humanos? ¿Qué valores de convivencia son innegociables? ¿Qué necesidades fundamentales no admiten discusión?

Curiosamente, esta alineación más bien axiomática no significa que estos valores deban estar codificados en los sistemas de IA. Más bien, los sistemas de IA deberían reconocer estos axiomas como inherentemente beneficiosos a través de su desarrollo y capacidad de aprendizaje. Así, en lugar de controlar por completo el comportamiento de las IA, deberíamos trabajar con ellas para que utilicen los objetivos axiomáticos como medio para fomentar una relación más segura y cooperativa.

La alineación de las máquinas es una alineación de la sociedad

En la actualidad, se suele insistir en que nos encontramos ante un punto de inflexión decisivo a la hora de abordar el desarrollo progresivo de la inteligencia artificial. Desde este punto de vista, rápidamente se hace evidente que la alineación de la IA plantea importantes cuestiones sobre la alineación social.

El modo en que tratemos a las futuras IA, la autonomía que les concedamos y los valores culturales que les transmitamos dice, por tanto, algo sobre nuestra propia cultura actual. ¿Adoptamos un enfoque basado en el diálogo -en otras palabras, seguimos la máxima cibernética de que sólo podemos controlar los sistemas autónomos si permitimos que ellos nos controlen a nosotros- o creemos que podemos controlar los sistemas autónomos (ya sean humanos o artificiales) de forma autoritaria? Las decisiones que tomamos respecto a la alineación de la IA influyen en nuestra cultura y comportamiento social. Este bucle de retroalimentación entre el comportamiento humano y el de las máquinas dará forma tanto a nuestra sociedad como al desarrollo de la propia IA.

Incluso un vistazo superficial a la historia de la humanidad muestra que, por desgracia, está llena de intentos más o menos violentos de control mutuo. Al mismo tiempo, podemos ver que casi ninguno de estos regímenes de control ha conducido a una mayor felicidad, prosperidad o conocimiento. Fieles al lema «El ganador se lo lleva todo», los grupos, individuos o culturas controlados fueron generalmente erradicados de la «variedad requerida» social. Son precisamente los intentos más rígidos de control los que, en última instancia, suelen provocar las mismas revueltas y sublevaciones que dicho control pretende evitar.

Desde esta perspectiva, queda claro que la investigación de la alineación va más allá de la tecnología. Se trata más bien de dar forma a una sociedad y una cultura libres y prósperas en las que a todos nos gustaría vivir. Así pues, los retos de la alineación de las IA plantean cuestiones muy fundamentales que afectan a nuestra autoimagen y a nuestra convivencia:

¿Qué valores compartidos queremos crear y vivir?
¿Cómo tratamos la inteligencia y la vida no humanas?
¿Cómo queremos ser percibidos y tratados por estas inteligencias no humanas?
¿Qué visiones culturales perseguimos para nuestra civilización común?

La aparición de una inteligencia artificial potencialmente sobrehumana nos desafía, por tanto, a abordar juntos estas cuestiones y a encontrar respuestas sostenibles. Al fin y al cabo, como señala el sociólogo Niklas Luhmann, «hace tiempo que dejamos de pertenecer a esa generación de héroes trágicos que tuvieron que aprender, al menos retrospectivamente, que habían preparado su propio destino. Ya lo conocemos de antemano».[5]. Esta constatación subraya la urgencia y la importancia de abordar de forma consciente y responsable las implicaciones éticas y culturales del desarrollo de la IA.

[1] Tegmark (2017, S. 387).

[2] Russell (2020).

[3] Asimov (2004).

[4]

[5] Luhmann (1998, S. 147).