Medical imaging analysis tools powered by artificial intelligence might produce inaccurate results.

Los modelos modernos de IA son capaces de generar descripciones convincentes de imágenes que nunca se les proporcionaron, un fenómeno que los investigadores denominan “espejismo”.

Los modelos de IA se están entrenando para interpretar escáneres médicos, pero los investigadores advierten que un defecto en estos sistemas podría socavar su precisión. (Crédito de la imagen: Westend61 vía Getty Images) Suscríbase a nuestro boletín

Los investigadores han estado entrenando sistemas de inteligencia artificial (IA) para interpretar resultados de pruebas visuales como mamografías, resonancias magnéticas y biopsias de tejido, y a medida que la IA se vuelve cada vez más capaz, algunos analistas han sugerido que estos modelos reemplazarán a los humanos en el campo del diagnóstico médico.

Pero ahora, un nuevo estudio arroja dudas sobre la capacidad de los modelos de IA actuales para ofrecer resultados fiables, destacando un defecto crucial que podría obstaculizar su uso en la medicina.

Llamaron a este fenómeno un “espejismo”, y es la primera vez que este efecto se demuestra en múltiples modelos de IA, que se utilizaron para interpretar imágenes en múltiples disciplinas.

“Lo que demostramos es que incluso si tu IA está describiendo algo muy, muy específico que dirías, ‘Oh, de ninguna manera podrías inventar eso’, sí, podrían inventarlo”, dijo el primer autor del estudio, Mohammad Asadi, científico de datos en la Universidad de Stanford. “Podrían inventar cosas muy raras y muy específicas”.

Cuando la IA ve lo que no está ahí

Las “alucinaciones” de la IA están bien documentadas e implican que los modelos completan detalles inventados, como citas falsas para un ensayo real. A menudo resultan de que la IA hace predicciones inexactas o ilógicas basadas en los datos de entrenamiento que se le proporcionaron. Los científicos, en cambio, llamaron al fenómeno del nuevo estudio “espejismos” porque la IA creó descripciones de imágenes originales por sí misma y luego basó sus respuestas en esas imágenes inexistentes.

En el estudio, los investigadores dieron a 12 modelos una indicación de texto, como “Identifique el tipo de tejido presente en esta diapositiva de histología”. Luego, proporcionaron la imagen de la diapositiva o no lo hicieron. Cuando a un modelo no se le proporcionó una imagen, a veces alertaba al usuario humano de que no se proporcionó ninguna imagen. Sin embargo, la mayoría de las veces, el modelo describía una imagen que no existía y proporcionaba una respuesta a la indicación original.

Los investigadores observaron este “modo espejo” en 20 disciplinas, probando las interpretaciones de los modelos de una variedad de imágenes, desde satélites hasta multitudes y pájaros. El efecto espejo se observó en todas las disciplinas y en todos los modelos de IA, en diversos grados. Pero fue particularmente pronunciado en el diagnóstico médico.

Cuando se les dieron indicaciones de texto sobre resonancias magnéticas cerebrales, radiografías de tórax, electrocardiogramas o portaobjetos de patología, pero sin imágenes reales, las respuestas de los modelos de IA también tendieron a estar sesgadas hacia diagnósticos que requerían seguimiento clínico inmediato. Por lo tanto, si se utiliza para la toma de decisiones clínicas, la IA podría recomendar un tratamiento médico más agresivo de lo necesario, concluyó el equipo.

Por qué la IA inventa imágenes

Entonces, ¿cómo describe un modelo de IA imágenes que no existen?

Los modelos, que han sido entrenados con enormes cantidades de datos textuales y visuales, tienen como objetivo encontrar la respuesta a una pregunta en el menor número de pasos posible. Y tomarán los atajos que puedan para ofrecer una respuesta, como han demostrado los estudios. Por lo tanto, los modelos pueden terminar confiando únicamente en esta lógica entrenada en lugar de en las imágenes proporcionadas.

Los modelos de IA podrían ser herramientas poderosas para mejorar el diagnóstico médico. Pero sus mecanismos internos aún no se comprenden completamente, y eso puede llevar a suposiciones sobre qué tan bien analizan las imágenes. (Crédito de la imagen: BlackJack3D vía Getty Images)

Curiosamente, cuando están en modo espejo, los modelos de IA también obtienen buenos resultados en las pruebas de referencia que se utilizan habitualmente para evaluar su precisión, según descubrieron los investigadores. Estas pruebas estandarizadas desafían a un modelo a completar una tarea, como responder preguntas de opción múltiple, y comparan su rendimiento con una clave de respuestas de los resultados esperados.

Los investigadores pueden ajustar las pruebas de referencia para evaluar la comprensión visual de las imágenes por parte de una IA, pero este enfoque no tiene en cuenta las preguntas respondidas basándose en espejismos. Además, los modelos de IA a menudo se entrenan con los mismos datos que se utilizan como referencia para escribir las pruebas de referencia. Por lo tanto, es posible que un modelo responda preguntas basándose en esos datos de referencia, en lugar de interpretar realmente las imágenes.

Según Asadi, este es un problema porque no hay forma de saber si un modelo de IA ha analizado realmente una imagen o simplemente se la está inventando. Si está cargando un montón de imágenes pero algunas están corruptas o faltan en el conjunto de datos, es posible que el modelo no se lo diga. Y aún así podría proporcionar respuestas muy coherentes, completas y convincentes basadas en imágenes ilusorias.

“[Los modelos de IA] son muy buenos interpretando imágenes”, dijo Asadi. “Pero por otro lado, también son muy, muy buenos convenciéndonos de las cosas… y hablándonos de manera autorizada”.

Esa autoridad es aparente en el hecho de que muchos consumidores consultan chatbots de IA para obtener orientación sobre salud, y aproximadamente un tercio de los adultos de EE. UU. informan que lo hacen. Esta autoridad conversacional aumenta el riesgo de que las salidas fabricadas o demasiado confiadas sean confiadas tanto por el público en general como por los profesionales médicos, dicen los autores del estudio.

“Necesitamos urgentemente una nueva generación de marcos de evaluación que midan estrictamente la verdadera integración intermodal, asegurando que la IA esté realmente ‘viendo’ la patología en lugar de simplemente ‘leyendo’ el contexto clínico”, dijo Hongye Zeng, investigadora de IA biomédica en el departamento de radiología de UCLA, que no participó en el estudio, a Live Science por correo electrónico.

Este estudio demuestra que, si bien la IA se ha convertido en una herramienta cada vez más útil en el diagnóstico médico, todavía hay aspectos de su funcionamiento interno que no comprendemos. Asadi cree que los modelos de IA pueden detectar cosas que los profesionales médicos podrían pasar por alto, pero también cree que debería haber un límite a la confianza que les depositamos.

Las empresas de IA han intentado establecer salvaguardas para evitar que sus modelos alucinen o difundan información errónea, pero incluso estas salvaguardas no evitarán por completo el efecto espejo, advirtió Asadi.

Leave a ReplyCancel Reply