2023-08-04 07:49:01
Con Med-PaLM M, Google Deepmind introduce una variante multimodal de su serie de modelos de IA médica Med-PaLM que puede procesar texto, imágenes médicas o incluso genomas para el diagnóstico.
Med-PaLM M (MPM) se basa en PaLM-E, el modelo robótico de Google que combina lenguaje y visión, y no es una evolución multimodal de Med-PaLM 2, el gran modelo de lenguaje de Google que se ha perfeccionado para tareas médicas. Esto tiene sentido, ya que se supone que Med-PaLM M es capaz de realizar diagnósticos a partir de datos visuales.
Al igual que Med-PaLM 2 es una variante del modelo de lenguaje fundacional PaLM 2 refinado con datos médicos, MPM es una variante de PaLM-E refinado con datos médicos.
Médico polivalente de IA
Google Deepmind llama a MPM un paso hacia un modelo biomédico de uso general. Piensa en él como una especie de médico universal que tiene listo un diagnóstico o una respuesta adecuada para todos los temas e imágenes médicas.
Med-PaLM M procesa una gran variedad de información médica. Al igual que Med-PaLM 2, puede responder preguntas de forma sencilla y se acerca al nivel de Med-PaLM 2. También puede examinar imágenes de rayos X o incluso escanear secuencias de ADN en busca de mutaciones.
En casi todas las disciplinas, Med-PaLM M iguala el rendimiento actual de los sistemas especializados e incluso establece nuevos estándares en algunas áreas, como el diagnóstico por rayos X o la respuesta a preguntas visuales.
Para probar las capacidades del modelo de IA, el equipo de investigación creó MultiMedBench, un benchmark multimodal con 14 tareas diferentes de siete disciplinas multimédicas. MultiMedBench incluye más de un millón de ejemplos y está diseñado para avanzar en el desarrollo de la IA biomédica.

MPM muestra potencial para la generalización médica
El equipo de investigación probó exhaustivamente la capacidad de Med-PaLM M para diagnosticar radiografías de tórax humanas. En aproximadamente el 40 por ciento de los casos, los clínicos prefirieron los informes de rayos X generados por la IA en una prueba ciega.
MPM produjo 0,25 errores clínicamente significativos por informe, lo que está a la par con los expertos humanos y debería permitir su uso clínico.
El equipo de investigación también destaca la capacidad de «disparo cero» de MPM, es decir, la capacidad de generalizar a nuevas tareas sin ejemplos explícitos, utilizando únicamente instrucciones en lenguaje natural.
Por ejemplo, Med-PaLM M puede reconocer y describir con precisión conceptos médicos nuevos, como la tuberculosis en radiografías de tórax, aunque nunca se haya entrenado con ejemplos de este tipo. Por lo tanto, MPM podría ser útil en casos en los que hay pocos datos de ejemplos médicos.

El equipo escribe que es necesario seguir desarrollando y «validando rigurosamente», pero considera que MPM es un «paso importante» hacia la IA biomédica general. Otros retos son los datos de alta calidad y a veces escasos que se necesitan para el escalado, y es necesario ampliar en gran medida la evaluación comparativa. El MultiMedBench presentado sigue siendo limitado en cuanto a alcance y variedad de tareas posibles, escriben los investigadores.