La mejor demostración falsa de Gemini de Google fue engañosa

AI Mafia

24 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación+1

Fecha de publicación: 2023-12-11 17:54:25

Puntos Claves:

1. La recepción mixta del nuevo modelo de inteligencia artificial de Google tras su gran debut ayer.
2. La demostración falsa de Gemini en un video que ha desencadenado la polémica.
3. El impacto negativo en la confianza de los usuarios en la tecnología y la integridad de Google.

La mejor demostración falsa de Gemini de Google fue engañosa

La recepción mixta del nuevo modelo de inteligencia artificial de Google tras su gran debut ayer plantea interrogantes sobre su autenticidad.

El Video Polémico

La demostración falsa de Gemini en un video ha desencadenado la polémica en la comunidad tecnológica.

Impacto en la Confianza

El impacto negativo en la confianza de los usuarios en la tecnología y la integridad de Google es una preocupación creciente.

El modelo de inteligencia artificial Gemini de Google está recibiendo una recepción mixta después de su gran debut ayer. Sin embargo, los usuarios pueden tener menos confianza en la tecnología o la integridad de la compañía después de descubrir que la demostración más impresionante de Gemini fue prácticamente falsa.

Un video llamado «Hands-on with Gemini: Interacting with multimodal AI» alcanzó un millón de visitas en el último día, y no es difícil ver por qué. La impresionante demostración «destaca algunas de nuestras interacciones favoritas con Gemini», mostrando cómo el modelo multimodal puede ser flexible y receptivo a una variedad de entradas.

Para empezar, narra un dibujo en evolución de un pato desde un garabato hasta un dibujo completado, y luego manifiesta sorpresa («¡Qué cuac!») al ver un pato azul de juguete. Luego responde a varias consultas de voz sobre ese juguete, y la demostración pasa a otras demostraciones, como el seguimiento de una pelota en un juego de cambio de tazas, el reconocimiento de gestos con sombras, el reordenamiento de dibujos de planetas, y así sucesivamente.

También es muy receptivo, aunque el video advierte que «la latencia se ha reducido y las salidas de Gemini se han acortado». Entonces se omiten una vacilación aquí y una respuesta excesivamente larga allá, entendido.

Un Engaño Cuidadosamente Elaborado

En realidad, fue una serie de indicaciones de texto cuidadosamente ajustadas con imágenes fijas, claramente seleccionadas y acortadas para tergiversar lo que en realidad es la interacción. Puedes ver algunas de las indicaciones y respuestas reales en una publicación de blog relacionada, que, para ser justos, está vinculada en la descripción del video, aunque debajo del «más…».

Por un lado, Gemini realmente parece haber generado las respuestas mostradas en el video. ¿Y quién quiere ver algunos comandos de mantenimiento como decirle al modelo que limpie su caché? Pero los espectadores están siendo engañados sobre la velocidad, la precisión y el modo fundamental de interacción con el modelo.

Diferencias Significativas

Por ejemplo, a las 2:45 en el video, se muestra una mano haciendo una serie de gestos en silencio. Gemini responde rápidamente, «¡Sé lo que estás haciendo! ¡Estás jugando a piedra, papel o tijera!» Créditos de imagen: Google/YouTube. Pero lo primero en la documentación de la capacidad es cómo el modelo no razona en base a ver gestos individuales. Debe mostrarse los tres gestos al mismo tiempo y provocado: «¿En qué crees que estoy participando? Pista: es un juego». Responde: «Estás jugando a piedra, papel o tijera». Créditos de imagen: Google.

Interpretación Errónea

A pesar de la similitud, estas no parecen ser la misma interacción. Se sienten como interacciones fundamentalmente diferentes, una evaluación intuitiva y sin palabras que captura una idea abstracta sobre la marcha, otra interacción ingeniosa y fuertemente sugerida que demuestra limitaciones tanto como capacidades. Gemini hizo lo último, no lo primero. La «interacción» mostrada en el video no sucedió.

Detalles Cruciales

Más tarde, se colocan tres notas adhesivas con dibujos del sol, Saturno y la Tierra en la superficie. Gemini dice: «No, el orden correcto es Sol, Tierra, Saturno». ¡Correcto! Pero en la indicación real (de nuevo, escrita), la pregunta es «¿Es este el orden correcto? Considera la distancia desde el sol y explica tu razonamiento». Créditos de imagen: Google. ¿Gemini lo hizo bien? ¿O se equivocó y necesitaba un poco de ayuda para producir una respuesta que pudieran colocar en un video?

Falta de Transparencia

En el video, una bola de papel se intercambia bajo una taza, que el modelo detecta y rastrea al instante y aparentemente de forma intuitiva. En la publicación, no solo tiene que explicarse la actividad, sino que también se debe entrenar al modelo (si bien rápidamente y utilizando un lenguaje natural) para realizarla. Y así sucesivamente.

Conclusión

Ahora, si el video hubiera dicho al principio: «Esta es una representación estilizada de las interacciones que nuestros investigadores probaron», nadie habría parpadeado: más o menos esperamos que los videos como este sean mitad fácticos, mitad aspiracionales. Pero el video se llama «Hands-on with Gemini» y cuando dicen que muestra «nuestras interacciones favoritas», implica que las interacciones que vemos son esas interacciones. No lo eran. A veces eran más complejas; a veces eran completamente diferentes; a veces realmente no parecen haber sucedido en absoluto.

Ni siquiera se nos dice qué modelo es: ¿el Gemini Pro que la gente puede usar ahora, o (más probable) la versión Ultra programada para ser lanzada el próximo año? ¿Deberíamos haber asumido que Google solo nos estaba dando un video con estilo cuando lo describieron de la manera que lo hicieron? Tal vez entonces deberíamos asumir que todas las capacidades en las demostraciones de inteligencia artificial de Google se están exagerando para tener efecto.

Escribo en el titular que este video fue «falsificado». Al principio no estaba seguro si este lenguaje tan duro estaba justificado (ciertamente Google no lo hace; un portavoz me pidió que lo cambiara). Pero a pesar de incluir algunas partes reales, el video simplemente no refleja la realidad. Es falso. Google dice que el video «muestra salidas reales de Gemini», lo que es cierto, y que «hicimos algunas ediciones a la demostración (hemos sido directos y transparentes al respecto)», lo cual no es cierto. No es una demostración, no realmente, y el video muestra interacciones muy diferentes de aquellas creadas para informarlo.

Actualización

En una publicación en redes sociales realizada después de la publicación de este artículo, Oriol Vinyals, VP de Investigación de Google DeepMind, mostró un poco más de cómo «Gemini se usó para crear» el video. «El video ilustra cómo podrían lucir las experiencias de usuario multimodales construidas con Gemini. Lo hicimos para inspirar a los desarrolladores» (Énfasis mío). Curiosamente, muestra una secuencia previa a la provocación que permite a Gemini responder a la pregunta de los planetas sin la pista del sol (aunque sí le dice a Gemini que es un experto en planetas y que considere la secuencia de objetos representados).

Quizás tenga que retractarme cuando, la próxima semana, el estudio de IA con Gemini Pro esté disponible para experimentar. Y es posible que Gemini se convierta en una poderosa plataforma de IA que realmente rivalice con OpenAI y otros. Pero lo que ha hecho Google aquí es envenenar el pozo. ¿Cómo puede alguien confiar en la compañía cuando afirman que su modelo hace algo ahora? Ya estaban cojeando detrás de la competencia. Google puede haberse disparado en el otro pie.