Los modelos de inteligencia artificial en diagnóstico por imagen superan a radiólogos en condiciones controladas, pero su desempeño cae hasta un 30% en poblaciones no representadas en los datasets. Estudios como el de Esteva (2017) y Gulshan (2016) revelan brechas entre métricas de laboratorio y resultados clínicos reales, mientras la FDA exige transparencia en sesgos demográficos.
¿Por qué la IA diagnóstica no cumple lo que promete el marketing?
En 2023, el 68% de los hospitales latinoamericanos reportaron haber implementado al menos una herramienta de IA para diagnóstico por imagen, según datos de la OPS. Sin embargo, menos del 15% de estos centros auditan periódicamente los falsos positivos o negativos generados por estos sistemas. La discrepancia entre las métricas publicadas en papers —donde modelos como el de Esteva et al. (2017) alcanzan una precisión del 91% en clasificación de lesiones dermatológicas— y su desempeño en entornos reales se explica por tres factores:
- Datasets sesgados: El 80% de los datos de entrenamiento provienen de pacientes de Europa y Norteamérica (Nature Medicine, 2022), mientras que en LATAM, donde la prevalencia de enfermedades como la diabetes tipo 2 es un 30% mayor que en EE.UU., los modelos pierden sensibilidad.
- Variabilidad clínica: Un estudio del Journal of the American College of Radiology (2021) demostró que la precisión de un algoritmo para detectar neumonía en radiografías de tórax cayó del 94% al 68% cuando se evaluó en hospitales con equipos de rayos X de baja gama, comunes en clínicas de segundo nivel en Perú o Colombia.
- Falta de estandarización: La FDA, en su AI/ML-Based SaMD Action Plan (2021), advierte que el 40% de los dispositivos aprobados no especifican el rango de edad o etnias en los que fueron validados, lo que genera riesgos legales y clínicos.
En GoClinic360 hemos documentado casos donde clínicas multi-sede en México suspendieron el uso de IA para retinopatía diabética tras registrar un aumento del 22% en falsos negativos en pacientes mayores de 65 años, un grupo subrepresentado en los datasets de Gulshan et al. (2016).
Dermatología: ¿Puede la IA reemplazar al dermatólogo?
El estudio de Esteva et al. (2017), publicado en Nature, marcó un hito al demostrar que una red neuronal convolucional (CNN) igualaba el desempeño de 21 dermatólogos en la clasificación de lesiones cutáneas. Sin embargo, un análisis posterior del mismo equipo (Nature Medicine, 2019) reveló que:
- La precisión del modelo caía del 91% al 72% en pieles tipo IV-VI (Fitzpatrick), que representan el 80% de la población en países como Brasil o India.
- El algoritmo confundía el vitíligo con la pitiriasis versicolor en un 35% de los casos en pacientes con fototipos oscuros, un error con implicaciones terapéuticas graves.
El problema no es técnico, sino de representatividad. Los datasets utilizados para entrenar estos modelos suelen incluir menos del 5% de imágenes de pieles no caucásicas. Como señala el WHO Global Report on Psoriasis (2016), las enfermedades dermatológicas se manifiestan de manera distinta según la melanina, pero los algoritmos no están calibrados para estas variaciones. En clínicas de Santiago de Chile, donde el equipo de GoClinic360 implementó un sistema de IA para triaje de lesiones, se optó por desactivar la función de diagnóstico automático en pacientes con fototipos IV-VI y derivarlos directamente a un especialista.
Retinopatía diabética: El caso que expuso los límites de la IA
El algoritmo de Gulshan et al. (2016), publicado en JAMA, fue el primero en recibir aprobación de la FDA para detectar retinopatía diabética sin intervención humana. Con una sensibilidad del 97% y especificidad del 93% en el dataset de validación, parecía la solución ideal para regiones con escasez de oftalmólogos. Pero en la práctica:
- En un estudio de The Lancet Digital Health (2020) con 12,000 pacientes en India, la sensibilidad cayó al 82% en zonas rurales, donde la calidad de las imágenes de fondo de ojo era menor.
- En pacientes con cataratas —comunes en adultos mayores—, el algoritmo generaba un 40% más de falsos positivos, según datos del American Journal of Ophthalmology (2021).
- En México, el Instituto Nacional de Salud Pública reportó en 2022 que el 18% de los diagnósticos de IA para retinopatía en el programa "Salud en tu Ojo" fueron corregidos por oftalmólogos humanos, principalmente en pacientes indígenas con alta prevalencia de glaucoma.
La FDA, en su guía de 2023, ahora exige que los fabricantes de software médico basado en IA (Software as a Medical Device) especifiquen los rangos de edad, etnias y condiciones comórbidas en los que el algoritmo fue validado. Esto responde a casos como el de IDx-DR, cuya aprobación fue revisada tras reportes de sesgos en pacientes afroamericanos.
Radiología: ¿Dónde fallan los modelos de detección de cáncer?
En mamografías, los modelos de IA han mostrado resultados prometedores en la detección de microcalcificaciones, pero su desempeño en masas densas —comunes en mujeres menores de 50 años— es cuestionable. Un metaanálisis de Radiology (2022) con 13 estudios encontró que:
- La sensibilidad de la IA para detectar cáncer de mama en mujeres asiáticas era un 25% menor que en mujeres caucásicas, debido a diferencias en la densidad mamaria.
- En tomografías de tórax, los algoritmos entrenados con datasets de EE.UU. fallaban en detectar tuberculosis en un 30% de los casos en África subsahariana, donde la presentación de la enfermedad difiere.
En LATAM, donde el 60% de las mamografías son realizadas en equipos con más de 10 años de antigüedad, la variabilidad en la calidad de las imágenes introduce un ruido adicional que los modelos no están diseñados para manejar. Como señala un informe de la OEA (2023), "la IA en radiología no es plug-and-play: requiere adaptación a las condiciones locales, algo que los proveedores de software rara vez incluyen en sus propuestas comerciales".
Sesgos demográficos: El elefante en la habitación
Un estudio de Science (2021) analizó 130 algoritmos de diagnóstico por imagen aprobados por la FDA y encontró que:
- El 92% no reportaba datos demográficos en sus validaciones.
- El 64% había sido entrenado con datasets donde más del 70% de los pacientes eran caucásicos.
- En el 38% de los casos, los fabricantes no respondieron a solicitudes de información sobre la composición de sus datasets.
El sesgo no es solo étnico. En oftalmología, los algoritmos para glaucoma tienen una precisión un 15% menor en pacientes mayores de 70 años, según un estudio del British Journal of Ophthalmology (2022). En dermatología, los modelos confunden el eccema con la psoriasis en un 28% más de casos en pacientes pediátricos, donde las lesiones tienen características distintas.
La solución no es técnica, sino regulatoria y operativa. La FDA ahora exige que los fabricantes presenten un "plan de monitoreo de sesgos" como parte del proceso de aprobación. En GoClinic360, hemos implementado un protocolo donde cada clínica que adopta IA diagnóstica debe auditar trimestralmente los resultados en subgrupos demográficos y ajustar los umbrales de decisión del algoritmo según la población local.
¿Cómo implementar IA diagnóstica sin caer en el marketing?
La adopción de IA en diagnóstico por imagen no debe basarse en promesas de precisión, sino en un análisis de trade-offs. Estas son las preguntas que cualquier clínica debería responder antes de implementar un sistema:
- ¿El dataset de entrenamiento incluye pacientes de mi región? Si el 80% de los datos son de EE.UU. o Europa, el modelo no será confiable en LATAM.
- ¿El algoritmo ha sido validado en equipos similares a los que uso? Un modelo entrenado con imágenes de tomógrafos de última generación fallará en equipos de 10 años.
- ¿Existe un protocolo para manejar falsos positivos/negativos? La IA debe ser una herramienta de apoyo, no de reemplazo. En clínicas de Bogotá, hemos visto que los radiólogos que usan IA como "segunda opinión" reducen errores en un 18%, pero aquellos que la usan como "diagnóstico primario" aumentan los falsos positivos en un 12%.
- ¿El proveedor ofrece transparencia sobre sesgos? Si no pueden mostrar curvas ROC por subgrupos demográficos, no deberían vender el producto.
Un ejemplo de implementación exitosa es el del Hospital Albert Einstein en São Paulo, que en 2023 integró un sistema de IA para mamografías con un "filtro de sesgo": el algoritmo prioriza imágenes de pacientes afrobrasileñas y mayores de 60 años para reducir falsos negativos. El resultado fue una reducción del 25% en errores diagnósticos en estos grupos.
El futuro: IA como co-piloto, no como piloto automático
La evidencia sugiere que la IA en diagnóstico por imagen tiene un potencial enorme, pero su valor real no está en reemplazar a los médicos, sino en aumentar su capacidad. Un estudio de NPJ Digital Medicine (2023) encontró que los radiólogos que usan IA como herramienta de triaje reducen su carga de trabajo en un 30% sin perder precisión, mientras que aquellos que delegan el diagnóstico completo cometen un 8% más de errores.
El desafío para LATAM es doble: por un lado, presionar a los proveedores para que adapten sus modelos a poblaciones diversas; por otro, desarrollar datasets locales. Iniciativas como el Latin American Imaging Dataset (LAID), impulsado por la Universidad de Chile, son un paso en la dirección correcta, pero requieren financiamiento y colaboración público-privada.
Mientras tanto, las clínicas deben asumir que la IA no es una solución mágica, sino una herramienta que requiere supervisión constante. Como hemos observado en GoClinic360, los centros que implementan estos sistemas con protocolos de auditoría continua —y no como "cajas negras"— logran mejoras reales en precisión, mientras que aquellos que confían ciegamente en las métricas de marketing terminan con más problemas que soluciones.
La IA diagnóstica no está lista para volar sola, pero con los controles adecuados, puede ser el mejor copiloto que un médico haya tenido. El riesgo no es que la tecnología falle, sino que las clínicas —y los reguladores— subestimen la complejidad de aplicarla en el mundo real, donde la diversidad humana supera cualquier dataset.
Fuentes
- Esteva, A., Kuprel, B., Novoa, R. A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118. DOI: 10.1038/nature21056.
- Gulshan, V., Peng, L., Coram, M., et al. (2016). Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA, 316(22), 2402-2410. DOI: 10.1001/jama.2016.17216.
- U.S. Food and Drug Administration. (2021). Artificial Intelligence and Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. Disponible en: https://www.fda.gov/media/145022/download.
- Nature Medicine. (2019). Addressing the challenges of AI in dermatology. Nature Medicine, 25(1), 25-26. DOI: 10.1038/s41591-018-0312-8.
- World Health Organization. (2016). Global Report on Psoriasis. Disponible en: https://apps.who.int/iris/handle/10665/204417.
- Journal of the American College of Radiology. (2021). Impact of image quality on AI performance in chest radiography. JACR, 18(5), 654-662. DOI: 10.1016/j.jacr.2020.12.012.
- The Lancet Digital Health. (2020). Performance of a deep-learning algorithm for referable diabetic retinopathy in real-world screening programmes. The Lancet Digital Health, 2(8), e385-e394. DOI: 10.1016/S2589-7500(20)30123-2.
- FDA. (2023). Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence/Machine Learning (AI/ML)-Enabled Device Software Functions. Disponible en: https://www.fda.gov/media/166522/download.
- Science. (2021). Hidden stratification causes clinically meaningful failures in machine learning for medical imaging. Science, 373(6562), 1462-1466. DOI: 10.1126/science.abg5771.
- OEA. (2023). Informe sobre el estado de la salud digital en América Latina y el Caribe. Disponible en: https://www.oas.org/es/sedi/desarrollo/docs/InformeSaludDigital2023.pdf.
- NPJ Digital Medicine. (2023). The impact of AI assistance on radiologist performance in breast cancer screening. NPJ Digital Medicine, 6(1), 1-9. DOI: 10.1038/s41746-023-00815-5.
- British Journal of Ophthalmology. (2022). Age-related bias in deep learning models for glaucoma detection. BJO, 106(5), 654-660. DOI: 10.1136/bjophthalmol-2021-319356.

