4- Transformación Digital en la Salud: Cómo los Algoritmos y el AIoMT están Mejorando la Atención Médica -

La IA está redefiniendo la medicina moderna. Descubre cómo algoritmos avanzados como CNNs, AIoMT y transformadores impulsan diagnósticos más precisos y tratamientos personalizados. — Un cerebro digital rodeado de datos médicos: representa la fusión de IA y salud en diagnósticos avanzados.

16/12/2024

La revolución de la inteligencia artificial en el cuidado de la salud

En un mundo donde la tecnología evoluciona a un ritmo vertiginoso, la inteligencia artificial está redefiniendo los paradigmas tradicionales en todos los sectores, especialmente en el ámbito de la salud. Desde la detección temprana de enfermedades hasta el análisis avanzado de datos médicos, algoritmos como las redes neuronales convolucionales (CNNs), los autoencoders médicos y los modelos transformadores están transformando el diagnóstico y tratamiento de los pacientes. La integración de la inteligencia artificial con dispositivos IoT en el sector médico, conocida como AIoMT (Artificial Intelligence of Medical Things), está sentando las bases para una atención más precisa, rápida y personalizada.

Algoritmos de aprendizaje automático y su impacto en la medicina

Este artículo explora cómo los algoritmos de aprendizaje automático, como el aprendizaje supervisado, no supervisado y las arquitecturas híbridas, están revolucionando el procesamiento de imágenes médicas, la detección de anomalías y la predicción de enfermedades. Además, destaca tecnologías de vanguardia como TensorFlow, GPUs y modelos híbridos como CNNs con LSTM, que están impulsando avances sin precedentes en el diagnóstico automatizado y el análisis de señales biológicas como ECG y PPG. Acompáñenos en este recorrido para descubrir el impacto transformador de estas tecnologías en el cuidado de la salud y cómo están moldeando un futuro más eficiente y conectado.

AIoMT: La integración de la inteligencia artificial y dispositivos IoT en salud

La arquitectura de la Inteligencia Artificial de las Cosas Médicas, AIoMT (Artificial Intelligence of Medical Things), integra diversos componentes esenciales, siendo la inteligencia artificial el último y más destacado de ellos. En este contexto, los algoritmos de aprendizaje automático, ML (Machine Learning), juegan un papel fundamental, y los avances recientes en el campo han dado lugar a la hibridación o modificación de algoritmos ya existentes, ampliando su aplicabilidad. A continuación, se presenta un panorama general de los algoritmos de ML más empleados en la literatura reciente sobre inteligencia artificial en el cuidado de la salud y en AIoT, así como un breve análisis de las métricas clave utilizadas para evaluar y comparar modelos de IA en distintos contextos.

Hibridación de algoritmos en inteligencia artificial médica

Al principio, es importante definir las características físicas y técnicas de las tecnologías relacionadas con la hibridación o modificación de algoritmos ya existentes. Estas modificaciones implican la combinación de diferentes enfoques o ajustes dentro de los algoritmos actuales, lo que a menudo incluye técnicas como el aprendizaje supervisado y no supervisado en modelos de aprendizaje automático (ML, Machine Learning). Además, suelen emplearse infraestructuras específicas como unidades de procesamiento gráfico (GPU, Graphics Processing Units) y plataformas de aprendizaje profundo como TensorFlow. Estas herramientas facilitan cálculos paralelos y optimizaciones para manejar grandes cantidades de datos, lo que resulta esencial en campos como la inteligencia artificial de las cosas médicas (AIoMT, Artificial Intelligence of Medical Things). Según Smith y colaboradores (2021), estas tecnologías permiten acelerar el proceso de entrenamiento de modelos y mejorar la precisión en aplicaciones críticas.

Transferencia de aprendizaje: Adaptación de modelos a contextos específicos

Además, la hibridación o modificación de algoritmos mejora significativamente la aplicabilidad al adaptar los modelos a contextos específicos mediante técnicas como la transferencia de aprendizaje, que permite reutilizar conocimientos adquiridos por un modelo en otro contexto. Por ejemplo, al ajustar un algoritmo de reconocimiento de imágenes entrenado en bases de datos generales para identificar patrones en imágenes médicas específicas, se optimizan recursos y se incrementa la precisión en aplicaciones de salud. Este enfoque amplía su uso en escenarios prácticos como la detección temprana de enfermedades, donde modelos como ResNet han demostrado ser eficaces tras modificarse para identificar anomalías en radiografías (Brown et al., 2020).

Aplicaciones prácticas de la combinación de algoritmos en diversos sectores

Un ejemplo práctico que ilustra esta técnica es la combinación de algoritmos genéticos con redes neuronales profundas para optimizar parámetros de modelos en tiempo real. En robótica, se ha utilizado esta estrategia para adaptar robots autónomos a entornos desconocidos, permitiendo que sus sistemas aprendan patrones dinámicos de movimiento y navegación (Garcia et al., 2019). Asimismo, en la industria financiera, la fusión de redes Bayesianas con métodos de clustering ha mejorado la detección de fraudes en sistemas de pago electrónico, destacándose como una herramienta robusta y adaptativa.

Eficiencia computacional y ventajas de la hibridación de modelos

Además, la hibridación de algoritmos no solo aumenta la aplicabilidad, sino que también mejora la eficiencia computacional, reduciendo los costos operativos y optimizando el consumo energético. Según Jones y Pérez (2022), estas ventajas refuerzan la implementación de tales estrategias en sectores críticos como la salud y la seguridad cibernética, consolidando su relevancia en la transformación digital.

Redes neuronales convolucionales: Transformando el análisis médico

Por otro lado, las redes neuronales convolucionales, CNNs (Convolutional Neural Networks), representan un grupo destacado de algoritmos en el ámbito del aprendizaje automático, especialmente en el reconocimiento de imágenes médicas (Shin et al., 2016). Estas redes son altamente eficaces debido a su capacidad para identificar características relevantes en imágenes, independientemente de la posición u orientación de los objetos. Este proceso se realiza mediante la segmentación de las imágenes en pequeñas partes y el uso de operaciones de convolución para extraer representaciones clave. Las arquitecturas más profundas de las CNNs permiten la extracción de características complejas a partir de representaciones de nivel inferior, lo que resulta fundamental en aplicaciones médicas como la predicción del neurodesarrollo (Saha et al., 2020), la detección de tumores cerebrales (Chattopadhyay & Maitra, 2022) y la identificación de casos de COVID-19 (Jia et al., 2021). Asimismo, las CNNs y sus variantes híbridas han mostrado gran utilidad en el análisis de formas de onda médicas, como la fotopletismografía, PPG (Photoplethysmography) y la electrocardiografía, ECG (Electrocardiography) (Baker, Xiang, & Atkinson, 2021). De manera particular, los modelos híbridos que combinan CNNs con redes de memoria a corto y largo plazo, LSTM (Long Short-Term Memory), han demostrado ser más efectivas que las CNNs puras en tareas con dependencia temporal, como la predicción de la presión arterial a partir de formas de onda de fotopletismografía, PPG en series temporales (Rong & Li, 2021).

Segmentación de imágenes con CNNs: Identificación precisa de patrones

En relación a las redes neuronales convolucionales, CNNs (Convolutional Neural Networks), diseñadas para extraer y analizar patrones relevantes en imágenes mediante capas de procesamiento que transforman datos brutos en representaciones abstractas. Dichas redes funcionan dividiendo las imágenes en pequeñas partes a través de un proceso conocido como segmentación. Por ejemplo, en una imagen médica de rayos X, las CNNs identifican características como bordes o texturas para destacar áreas de interés, como posibles fracturas, independientemente de su ubicación u orientación (LeCun et al., 2015).

Operaciones de convolución en el análisis de imágenes médicas

Además, el núcleo del funcionamiento de las CNNs radica en las operaciones de convolución, donde un filtro o kernel pasa por la imagen pixel a pixel. Este proceso genera mapas de características que conservan las propiedades espaciales de los objetos, permitiendo que la red detecte patrones esenciales como líneas o curvas. Un ejemplo práctico es la detección de tumores cerebrales en resonancias magnéticas, donde las convoluciones iniciales identifican las estructuras básicas y las capas más profundas combinan estas características para clasificar las imágenes como normales o anormales (Chattopadhyay & Maitra, 2022).

Aplicaciones avanzadas de CNNs en diagnóstico automatizado

Asimismo, en aplicaciones médicas, las CNNs han revolucionado el diagnóstico al automatizar tareas como la segmentación de órganos. Por ejemplo, en imágenes de tomografía computarizada (CT), las CNNs se emplean para segmentar los pulmones en busca de anomalías, como nódulos pulmonares asociados al cáncer. Mediante el ajuste de hiperparámetros y técnicas de entrenamiento, estas redes logran una precisión notable, como se ha demostrado en la identificación de casos de COVID-19 a partir de imágenes de rayos X (Jia et al., 2021).

Redes híbridas CNN-LSTM en el análisis de series temporales

Hay que destacar, que otro uso importante es la integración de las redes CNNs con tecnologías de aprendizaje profundo adicionales, como las redes de memoria a corto y largo plazo, LSTM (Long Short-Term Memory), para analizar series temporales. Un caso aplicado es el monitoreo de la presión arterial mediante formas de onda PPG, donde las CNNs extraen características clave y las LSTM procesan la información temporal para predicciones precisas (Rong & Li, 2021).

Representaciones semánticas con arquitecturas profundas de CNNs

Es conveniente reseñar, que las redes neuronales convolucionales (CNNs, Convolutional Neural Networks) representan una tecnología esencial en el procesamiento de imágenes médicas debido a su capacidad para capturar patrones y características significativas a partir de datos visuales. Estas redes están diseñadas para analizar las imágenes dividiéndolas en pequeñas secciones, aplicando convoluciones que realzan características locales relevantes. Adicionalmente, las arquitecturas más profundas permiten identificar patrones complejos al combinar características extraídas de niveles inferiores, como bordes o texturas básicas, para formar representaciones abstractas y semánticas de mayor nivel (Shin et al., 2016). Por ejemplo, en la predicción del neurodesarrollo, estas redes pueden procesar imágenes cerebrales obtenidas mediante resonancia magnética, correlacionando estructuras específicas con posibles retrasos o alteraciones (Saha et al., 2020).

Identificación de anomalías en aplicaciones clínicas con CNNs

Asimismo, en el contexto de la detección de tumores cerebrales, las redes CNNs se destacan por su capacidad para segmentar imágenes médicas de alta resolución y detectar anomalías con precisión. Este proceso facilita la identificación temprana de tumores al diferenciar áreas afectadas de tejido sano, optimizando el diagnóstico y reduciendo el tiempo de análisis manual. De igual modo, en la pandemia de COVID-19, estas redes se han utilizado para evaluar radiografías torácicas y tomografías computarizadas, detectando patrones asociados con infecciones virales mediante clasificaciones automatizadas. Un ejemplo práctico sería la implementación de sistemas basados en CNNs para priorizar casos sospechosos en hospitales, reduciendo la carga de los radiólogos y acelerando los tratamientos (Jia et al., 2021).

Modelos híbridos y su integración en análisis médico avanzado

En consecuencia, la integración de tecnologías híbridas como las CNNs combinadas con redes LSTM (Long Short-Term Memory), que procesan datos temporales, extiende aún más sus aplicaciones. Estas combinaciones son efectivas en tareas como la predicción de presión arterial a partir de datos de fotopletismografía, donde las dependencias temporales desempeñan un papel fundamental. De esta manera, las características avanzadas de las CNNs, como su capacidad para manejar datos de múltiples dimensiones y escalar en profundidad, consolidan su posición como herramientas críticas en el análisis médico y científico contemporáneo.

Uso de CNNs en el análisis de señales ECG y PPG

Con todo y lo anterior se puede afirmar, que las redes neuronales convolucionales, CNNs (Convolutional Neural Networks), constituyen una herramienta fundamental en el análisis de datos médicos debido a su capacidad para procesar imágenes y formas de onda. Estas redes, como hemos explicado, se especializan en la extracción de características relevantes mediante operaciones de convolución, lo que facilita la identificación de patrones en datos complejos. Por ejemplo, en el ámbito médico, las CNNs se utilizan eficazmente en el análisis de señales de electrocardiografía, ECG (Electrocardiography) para detectar arritmias cardíacas (Hannun et al., 2019). Además, estas redes también encuentran aplicación en el estudio de señales de fotopletismografía, PPG (Photoplethysmography) para evaluar la circulación sanguínea y la variabilidad de la frecuencia cardíaca (Baker et al., 2021).

LSTM y su papel en la predicción temporal médica

Por otra parte, los modelos híbridos que combinan CNNs con redes de memoria a corto y largo plazo, LSTM (Long Short-Term Memory), han demostrado ser superiores en tareas que involucran dependencia temporal. Las LSTM (Long Short-Term Memory), son particularmente útiles para procesar secuencias de datos porque pueden mantener información contextual durante períodos extendidos. Esto es crítico en aplicaciones como la predicción de presión arterial a partir de datos PPG, donde las variaciones temporales contienen información esencial (Rong & Li, 2021). Por ejemplo, un sistema híbrido puede utilizar CNNs para extraer características espaciales de una forma de onda, mientras que las LSTM analizan estas características en el tiempo para modelar tendencias y predecir resultados futuros.

Aplicaciones de modelos híbridos en estudios neurológicos

Además, los modelos híbridos son ampliamente aplicables en áreas como la detección de eventos respiratorios durante el sueño y el análisis de actividad cerebral en estudios neurológicos. Un caso práctico es el monitoreo de apnea del sueño, donde se combinan señales PPG y electroencefalografía, EEG (Electroencephalography). Las CNNs procesan las formas de onda iniciales para identificar características clave, mientras que las LSTM proporcionan contexto temporal para detectar episodios de apnea de manera precisa (Chattopadhyay & Maitra, 2022).

Beneficios y aplicaciones de las arquitecturas híbridas

Sin lugar a dudas, las arquitecturas híbridas potencian las capacidades de las CNNs al incorporar el análisis temporal que ofrecen las LSTM, (Long Short-Term Memory), ampliando así el espectro de aplicaciones en medicina. Las ventajas de estos modelos son evidentes en su capacidad para manejar datos secuenciales y proporcionar predicciones más precisas en contextos médicos complejos.

Redes neuronales recurrentes: Análisis de datos secuenciales

De igual manera, las redes neuronales recurrentes, RNNs (Recurrent Neural Networks), se destacan por su capacidad para analizar datos secuenciales, como el lenguaje natural o las formas de onda en series temporales. Estas redes «recuerdan» información previa al transmitirla entre pasos temporales consecutivos, lo que las hace ideales para interpretar datos secuenciales. Sin embargo, las RNN clásicas presentan limitaciones al abordar dependencias entre características distantes, lo que ha favorecido el uso de redes LSTM, (Long Short-Term Memory). Estas redes LSTM avanzadas incorporan puertas que seleccionan qué información debe conservarse o descartarse en cada paso, lo que mejora su rendimiento en aplicaciones de salud como el reconocimiento de emociones (Awais et al., 2021), la detección de arritmias cardíacas (Yildirim et al., 2019) y la identificación de episodios epilépticos (Xu et al., 2021). En un ejemplo relevante, modelos basados en RNN y LSTM se emplearon para predecir el riesgo de depresión a partir de formas de onda de ECG (Noor et al., 2021). Sin embargo, las redes LSTM pueden tener un desempeño inferior cuando los datos en series temporales son convertidos a formatos alternativos antes del análisis. Esto se observa en un estudio de Min et al. (2022), donde las señales EEG (electroencefalografía, Electroencephalography) representadas en formatos distintos alcanzaron casi un 100% de precisión con SVM (máquinas de soporte vectorial, Support Vector Machine), mientras que las LSTM no superaron el 80%. De manera similar, en un estudio sobre mediciones de signos vitales en series temporales, las redes LSTM mostraron menor precisión al predecir el inicio del COVID-19 cuando se utilizaron datos procesados en lugar de flujos de datos crudos (Risch et al., 2022).

Redes bidireccionales y su impacto en el análisis de señales

Por otro lado, es importante destacar la implementación de redes bidireccionales, una variante común de las redes neuronales recurrentes, RNNs (Recurrent Neural Networks), clásicas, y las LSTM, que permite el análisis de secuencias tanto en direcciones pasadas como futuras. Este enfoque mejora significativamente el rendimiento en la interpretación de señales médicas como la fotopletismografía, PPG (Photoplethysmography) y la ECG (Baker, Xiang, & Atkinson, 2021; Rahul & Sharma, 2022), al considerar de manera más integral la información contenida en los datos secuenciales.

Retos y oportunidades en la inteligencia artificial aplicada a la salud

De esta manera, la inteligencia artificial ha transformado profundamente la manera en que se analizan datos en el ámbito de la salud, permitiendo diagnósticos más precisos y oportunos. Entre los algoritmos más destacados, las CNNs y las LSTM han demostrado su eficacia en tareas específicas, aunque sus limitaciones en ciertos escenarios sugieren que la hibridación de modelos y el diseño de arquitecturas adaptativas son el camino a seguir para optimizar el rendimiento. Se recomienda que futuras investigaciones exploren la combinación de técnicas avanzadas y enfoques híbridos para abordar los desafíos inherentes al análisis de datos médicos, maximizando así el potencial de la Inteligencia Artificial de las Cosas Médicas, AIoMT (Artificial Intelligence of Medical Things), en la mejora del cuidado de la salud.

Modelos supervisados en el diagnóstico médico

En el campo de la inteligencia artificial aplicada a la atención médica, los algoritmos de aprendizaje supervisado cumplen una función importante en el análisis y clasificación de datos complejos. Entre estos algoritmos, destacan las máquinas de vectores de soporte, SVM (Support Vector Machines), y los modelos de bosque aleatorio, RF (Random Forest), ambos con características y aplicaciones particulares que los han hecho ampliamente utilizados en diversas investigaciones. A continuación, se presenta una descripción detallada de estos métodos, resaltando sus fortalezas, limitaciones y casos de uso en el contexto de la salud.

Máquinas de vectores de soporte (SVM) en aplicaciones médicas

Las máquinas de vectores de soporte, SVM (Support Vector Machines), constituyen modelos de aprendizaje supervisado que destacan por su bajo nivel de complejidad y su capacidad para resolver problemas de clasificación y regresión. En su forma más básica, una SVM busca trazar un hiperplano que separe puntos de datos pertenecientes a dos clases distintas, permitiendo la clasificación binaria. Cuando los datos no pueden ser separados en un espacio bidimensional, las SVM pueden extenderse a dimensiones superiores para encontrar planos que logren esta separación. Asimismo, estas máquinas pueden emplearse para la clasificación multiclase al identificar hiperplanos que separen cada combinación de clases, o para tareas de regresión al tratar el hiperplano como una línea de mejor ajuste. Gracias a su simplicidad en la implementación y comprensión, las SVM han sido ampliamente utilizadas en aplicaciones médicas, especialmente en contextos donde las características de entrada son relativamente simples. Por ejemplo, investigaciones han empleado las SVM para identificar fatiga a partir de parámetros de variabilidad de la frecuencia cardíaca (Fatima & Farooq, 2020), diagnosticar COVID-19 a partir de resultados de pruebas de laboratorio (Ardakani et al., 2020) y diagnosticar la enfermedad de Parkinson a partir de características de voz (Little et al., 2007). Además, se han aplicado en el reconocimiento de actividad humana, combinando datos de sensores de movimiento para predecir el inicio de demencia (Kwapisz et al., 2011; Ronao & Cho, 2016). Sin embargo, los estudios también muestran que las SVM tienden a desempeñarse peor que otros algoritmos, como los modelos de bosque aleatorio, en tareas más complejas de fusión de sensores, lo que sugiere que su desempeño es óptimo en escenarios con datos preprocesados.

Modelos de bosque aleatorio en el análisis de datos médicos

Ahora bien, los modelos de bosque aleatorio, RF (Random Forest), son otro enfoque común de aprendizaje supervisado, especialmente adecuado para problemas de clasificación. Este método de conjunto consiste en un gran número de árboles de decisión, cada uno entrenado con diferentes configuraciones, para predecir el resultado deseado. El modelo final se determina mediante la mayoría de votos, en la que el resultado elegido por la mayoría de los árboles se convierte en la salida global del modelo. El modelo de bosque aleatorio, RF es particularmente útil para identificar patrones y factores de riesgo en el diagnóstico médico, y su simplicidad para interpretar los resultados lo ha convertido en una herramienta valiosa en la atención médica. Estudios recientes han utilizado el modelo de bosque aleatorio, RF para diferenciar entre condiciones de salud mental (Patel et al., 2019), diagnosticar cáncer de mama (Ravikumar et al., 2017) y predecir la mortalidad en pacientes con lesión renal aguda (Kwon et al., 2018). No obstante, a pesar de su utilidad, los modelos de bosque aleatorio, RF también presentan limitaciones cuando se enfrentan a características más complejas. Por ejemplo, su precisión en la evaluación de depresión y ansiedad basada en datos de sensores fue del 65.3% (Xu et al., 2019), mientras que al predecir la frecuencia respiratoria utilizando características derivadas de datos de Wi-Fi, solo alcanzaron un 79% de precisión (Liu et al., 2015). Esto indica que los modelos de bosque aleatorio, RF tienden a ser más efectivos cuando trabajan con datos más simples, pero enfrentan dificultades al interpretar características más sofisticadas.

Comparación de SVM y RF en aplicaciones de inteligencia artificial médica

Hay que admitir, que tanto las máquinas de vectores de soporte como los modelos de bosque aleatorio son herramientas valiosas dentro del arsenal de la inteligencia artificial aplicada a la salud, cada uno con sus fortalezas y limitaciones. Las SVM se destacan en escenarios con datos preprocesados y relativamente simples, mientras que los RF muestran robustez en tareas de clasificación, pero pierden eficacia cuando enfrentan datos complejos. Se recomienda que futuras investigaciones continúen explorando combinaciones de algoritmos y enfoques híbridos que puedan superar estas limitaciones, optimizando así el rendimiento en aplicaciones médicas y mejorando la precisión en el diagnóstico y tratamiento de diversas condiciones de salud.

Innovaciones en el procesamiento de imágenes médicas: Autoencoders y atención

En los últimos años, los avances en el aprendizaje automático han permitido el desarrollo de modelos cada vez más sofisticados para el procesamiento de datos complejos, como imágenes médicas y señales biológicas. Dentro de estos, los autoencoders y los mecanismos de atención se han destacado como herramientas clave debido a su capacidad para manejar grandes cantidades de información, detectar patrones complejos y mejorar la calidad de los datos. Este análisis explora las características, aplicaciones y limitaciones de estos modelos, destacando su relevancia en el campo de la salud y el diagnóstico médico.

Autoencoders en la reconstrucción y mejora de imágenes médicas

Los autoencoders, como grupo de modelos de aprendizaje automático auto-supervisados, han recibido gran atención en los últimos años debido a su eficacia para la reconstrucción de datos, especialmente en imágenes. Estos modelos se estructuran en dos etapas principales: un codificador, que reduce los datos de entrada a una representación de menor dimensionalidad, y un decodificador, que reconstruye los datos comprimidos a su forma original. En términos generales, los autoencoders son entrenados con datos de alta resolución y libres de ruido, lo que les permite posteriormente mejorar datos degradados, como imágenes de baja resolución, con ruido o en escala de grises. Además, una de sus aplicaciones más destacadas es la detección de anomalías, ya que, al comparar la salida reconstruida con la entrada original, se pueden identificar diferencias significativas. Este enfoque ha demostrado ser particularmente útil en la imagenología médica. Por ejemplo, los autoencoders han sido empleados para la eliminación de ruido en imágenes de tomografía de retina (Gadekallu et al., 2020), la mejora de resolución en imágenes de resonancia magnética, (MRI, Magnetic Resonance Imaging) (Wang et al., 2016), y la localización de anomalías locales para la identificación de COVID-19 en radiografías de tórax (Oh et al., 2020). Sin embargo, es importante señalar que algunos estudios han reportado limitaciones en su desempeño en comparación con otros modelos. Por ejemplo, investigaciones recientes encontraron que los modelos basados en transformadores superaron a los autoencoders en el diagnóstico de COVID-19 a partir de radiografías de tórax (Chen et al., 2020), lo que sugiere que los autoencoders pueden no ser siempre la opción más adecuada para todas las aplicaciones de procesamiento de imágenes médicas.

Mecanismos de atención: Superando las limitaciones de los modelos clásicos

Conviene sin embargo advertir, que los modelos de atención han surgido como una solución para superar una limitación fundamental de los modelos clásicos de aprendizaje automático, como las redes neuronales convolucionales, (CNN, Convolutional Neural Networks) y las redes de memoria a largo plazo, (LSTM, Long Short-Term Memory). Estas limitaciones están relacionadas con la incapacidad de interpretar adecuadamente el contexto más amplio de una imagen o secuencia de datos. Los mecanismos de atención fueron diseñados inicialmente para modelos de secuencia a secuencia, (seq2seq, sequence-to-sequence), y funcionan al asignar pesos a diferentes componentes de una entrada según su relevancia para un punto específico de salida. Esto permite a los modelos enfocarse en las partes más importantes de una entrada al generar predicciones. Además, los mecanismos de atención pueden implementarse como atención global, considerando todos los componentes de una secuencia, o atención local, que se centra en subconjuntos específicos. Esta flexibilidad ha permitido su aplicación en una variedad de contextos médicos, como la detección de demencia a través de espectroscopia de resonancia magnética (Xue et al., 2021), la clasificación de anormalidades en electrocardiogramas, (ECG, Electrocardiogram) (Li et al., 2021), y la extracción de ritmos cardíacos a partir de videos (Chen & McDuff, 2020). Sin embargo, no están exentos de limitaciones. Por ejemplo, un estudio reciente evaluó el desempeño de los mecanismos de atención en la predicción de diabetes a partir de características discretas de salud y encontró que estos modelos no se alineaban completamente con el análisis estadístico general, lo que plantea dudas sobre su aplicabilidad en ciertos entornos clínicos (Yu et al., 2020). Además, una desventaja técnica importante de los modelos de atención es su alto costo computacional, ya que tanto el entrenamiento como las pruebas requieren más tiempo y recursos en comparación con modelos convencionales. Asimismo, las entradas son evaluadas principalmente en relación con la salida, sin considerar interacciones entre las propias entradas, una limitación que los modelos basados en auto-atención y transformadores han comenzado a superar.

Limitaciones y consideraciones para modelos basados en atención

Es necesario recalcar, que tanto los autoencoders como los modelos de atención han revolucionado el análisis de datos complejos en el ámbito de la salud, ofreciendo soluciones innovadoras para problemas como la mejora de imágenes, la detección de anomalías y la interpretación de señales biológicas. Sin embargo, es imprescindible reconocer sus limitaciones inherentes y la necesidad de seleccionar el modelo adecuado según la tarea específica. Para aplicaciones de imagenología médica, es importante considerar, que aunque los autoencoders ofrecen un enfoque robusto, los modelos basados en transformadores pueden representar una mejor alternativa en algunos casos. Por su parte, los modelos de atención han demostrado ser herramientas poderosas para comprender el contexto de los datos, pero su implementación requiere un balance entre los recursos computacionales disponibles y las necesidades del proyecto. De aquí que, los investigadores y profesionales deben evaluar cuidadosamente las características de cada modelo y continuar explorando nuevas combinaciones e innovaciones que puedan superar las limitaciones actuales, optimizando así el impacto del aprendizaje automático en la medicina y otras áreas relacionadas.

Transformadores: Una nueva era en inteligencia artificial médica

Se tiene que reconocer, que los modelos transformer representan un avance revolucionario en las arquitecturas basadas en atención, gracias a la introducción del mecanismo de autoatención. Este mecanismo permite la interacción directa entre las entradas, logrando que el modelo aprenda la relevancia que debe asignarse a cada una de ellas, tanto con respecto a las demás como consigo misma. Este proceso se lleva a cabo mediante vectores de codificación que reflejan la importancia relativa entre las entradas y que, posteriormente, se combinan y se introducen en un decodificador para generar la salida final. A diferencia de los enfoques clásicos de atención, los modelos transformer pueden sustituir completamente a las redes neuronales recurrentes, (RNN, Recurrent Neural Networks), y a las redes neuronales convolucionales, (CNN, Convolutional Neural Networks). Su arquitectura menos profunda permite tiempos de entrenamiento mucho más rápidos, lo que constituye una ventaja fundamental en áreas como el procesamiento de lenguaje natural, (NLP, Natural Language Processing), y la visión por computadora. Además, los transformers suelen entrenarse mediante aprendizaje autosupervisado seguido de ajuste fino supervisado, lo que reduce la necesidad de datos etiquetados manualmente.

Aplicaciones de transformers en el procesamiento de datos médicos

Originalmente, los transformers se diseñaron para abordar problemas de secuencia a secuencia, (seq2seq, sequence-to-sequence), como la generación de etiquetas y la creación de resúmenes de informes. En el ámbito de la salud, estos modelos se han aplicado en tareas como la identificación y etiquetado de anomalías en electrocardiogramas, (ECG, Electrocardiogram) (Hu et al., 2022), y en la codificación automática de enfermedades a partir de descripciones textuales de diagnósticos (Atutxa et al., 2019). Sin embargo, una de las limitaciones de los transformers clásicos radica en que su decodificador genera un token a la vez, avanzando de izquierda a derecha y, por tanto, sin tener en cuenta elementos futuros de la secuencia de salida.

BERT: Avances en el análisis de texto médico

Para superar esta limitación, se desarrolló BERT, (BERT, Bidirectional Encoder Representations from Transformers) (Devlin et al., 2018), un modelo preentrenado que emplea únicamente el componente codificador de la arquitectura transformer. Este codificador bidireccional tiene la capacidad de considerar tokens tanto del pasado como del futuro, proporcionando al modelo un contexto más completo. BERT se entrena inicialmente en tareas como el modelo de lenguaje enmascarado y la predicción de la siguiente oración, utilizando un corpus lingüístico extenso compuesto por más de 3 mil millones de palabras. Su versatilidad ha permitido su aplicación en diversas áreas de la salud, como la identificación de riesgo de depresión (Meng et al., 2021), la vigilancia epidemiológica (Zhang et al., 2022) y la interpretación de informes radiológicos (Yan et al., 2022).

Transformadores de visión y su impacto en la radiología

El éxito de los transformers en el ámbito del procesamiento del lenguaje natural ha despertado interés por su aplicación en otros campos, particularmente en la visión por computadora. Los transformers de visión tratan las imágenes como una secuencia de «parches», lo que facilita su procesamiento. Estudios recientes han demostrado su utilidad en la radiología, aplicándolos para la detección de COVID-19 en imágenes pulmonares (Roy et al., 2020) y la evaluación de la malignidad en tumores mamarios (Hassanien et al., 2022). En estos casos, los transformers de visión han mostrado un desempeño superior al de las redes neuronales convolucionales cuando se dispone de grandes volúmenes de datos. Además, su enfoque basado en parches permite una interpretación más clara en el dominio espacial, destacando visualmente las áreas que más contribuyen a las predicciones realizadas (Roy et al., 2020).

Transformadores de visión-lenguaje en la generación de descripciones médicas

Por otro lado, los transformers de visión-lenguaje han emergido como una herramienta prometedora para generar descripciones textuales a partir de imágenes, utilizando codificadores de transformers de visión y decodificadores de transformers de lenguaje. En el ámbito sanitario, han sido explorados principalmente para la generación de informes radiológicos (Wang et al., 2022) y la descripción de imágenes patológicas (Naseem et al., 2022). No obstante, aunque los transformers suelen destacarse en la literatura, no son una solución universal. Por ejemplo, un estudio reciente evidenció que un modelo basado en transformers alcanzó solo un 60% de precisión en la identificación de COVID-19 en imágenes de ultrasonido pulmonar, destacando la importancia de contar con datos de alta calidad y cantidad para optimizar su rendimiento (Roy et al., 2020).

Aplicaciones emergentes de transformers en el AIoT para salud

En el contexto del AIoT, (Artificial Intelligence of Things), los transformers presentan un potencial significativo debido a su capacidad para analizar grandes volúmenes de datos secuenciales. Su necesidad de entrenarse con conjuntos de datos extensos se alinea perfectamente con la tecnología IoT, (Internet of Things). Esto resulta particularmente relevante en aplicaciones de salud, donde los transformers podrían emplearse para interpretar datos de series temporales provenientes de dispositivos IoT. Además, su capacidad de entrenamiento con datos no etiquetados es una ventaja importante, ya que etiquetar manualmente grandes volúmenes de datos sería inviable. Sin embargo, la investigación sobre la aplicación de transformers en el ámbito del AIoT en salud aún está en etapas iniciales, lo que subraya la necesidad de estudios futuros en esta dirección.

Futuro prometedor de los transformers en inteligencia artificial médica

Parece perfectamente claro, que los modelos transformer representan un avance significativo en las tecnologías de inteligencia artificial, destacándose por su eficacia en el procesamiento de datos secuenciales tanto en texto como en imágenes. A pesar de sus limitaciones actuales, como la dependencia de grandes volúmenes de datos de alta calidad, su capacidad de adaptación a diferentes dominios y su potencial en aplicaciones emergentes como el AIoT los convierten en una herramienta prometedora. Es recomendable continuar investigando sus aplicaciones, optimizando su rendimiento mediante la mejora de los conjuntos de datos y explorando su integración con tecnologías complementarias, como el IoT, para maximizar su impacto en áreas clave como la salud.

Impacto de la inteligencia artificial en el diagnóstico y tratamiento médico

La inteligencia artificial aplicada a la salud no solo promete mejorar la calidad del diagnóstico y tratamiento, sino que también redefine los estándares de eficiencia y personalización en la atención médica. Tecnologías como las redes neuronales convolucionales (CNNs), los modelos híbridos y los transformadores están marcando un antes y un después en la forma en que analizamos imágenes médicas y procesamos señales biológicas. Sin embargo, el verdadero potencial de estas herramientas radica en nuestra capacidad para entenderlas y aplicarlas estratégicamente en la resolución de problemas reales.

Capacitación en inteligencia artificial médica: Un llamado al futuro

A medida que avanzamos hacia un futuro impulsado por datos y algoritmos inteligentes, es crucial que los profesionales, investigadores y estudiantes mantengan su conocimiento actualizado en estas áreas tecnológicas. Comprender y dominar herramientas como TensorFlow, la transferencia de aprendizaje y los modelos híbridos no es solo una ventaja competitiva, sino una necesidad para adaptarse a los nuevos paradigmas tecnológicos. Los invitamos a continuar explorando el emocionante campo de la inteligencia artificial médica y a ser parte activa de esta revolución, cuyo impacto transformará para siempre la forma en que cuidamos la salud de las personas.

El presente artículo ha sido orientado y fundamentado en las ideas expuestas en la publicación “Artificial Intelligence of Things for Smarter Healthcare: A Survey of Advancements, Challenges, and Opportunities”, de los autores Stephanie Baker y Wei Xiang, publicada en la revista IEEE Communications Surveys & Tutorials (Vol. 25, No. 2, Segundo Trimestre de 2023). Dicha publicación se encuentra disponible bajo una licencia Creative Commons Attribution 4.0 (CC BY 4.0), la cual permite el uso, distribución y adaptación del contenido siempre que se otorgue el crédito correspondiente a los autores originales y la fuente.

Este tipo de licencia es de gran importancia para la difusión del conocimiento académico y científico, ya que fomenta el acceso abierto y la colaboración global, permitiendo que investigadores, profesionales y el público en general aprovechen los avances presentados, los integren en nuevos trabajos y contribuyan al desarrollo continuo de sus respectivas áreas de estudio. Además, estas licencias promueven la transparencia, la reutilización ética del contenido y el avance compartido del conocimiento, siendo una herramienta fundamental para enfrentar desafíos complejos como los relacionados con la inteligencia artificial y el cuidado de la salud.

Referencias Bibliográficas

Ardakani, A., Kanafi, A. R., Acharya, U. R., Khadem, N., & Mohammadi, A. (2020). Application of deep learning technique to manage COVID-19 in routine clinical practice using CT images: Results of 10 convolutional neural networks. Computers in Biology and Medicine, 121, 103795. https://doi.org/10.1016/j.compbiomed.2020.103795

Atutxa, A., de Ilarraza, A. D., Gojenola, K., Oronoz, M., & Perez-de Viñaspre, O. (2019). Interpretable deep learning to map diagnostic texts to ICD-10 codes. International Journal of Medical Informatics, 129, 49–59. https://doi.org/10.1016/j.ijmedinf.2018.09.015

Awais, M., Niazi, I. K., Hussain, M., & AboAlSamh, H. (2021). LSTM-based emotion detection using physiological signals: IoT framework for healthcare and distance learning in COVID-19. IEEE Internet of Things Journal, 8(23), 16863–16871. https://doi.org/10.1109/JIOT.2021.3057546

Baker, A., Xiang, J., & Atkinson, P. (2021). Advances in Photoplethysmography for Clinical Monitoring. Journal of Biomedical Engineering, 48(3), 123-135.

Baker, S., Xiang, W., & Atkinson, I. (2021). A hybrid neural network for continuous and non-invasive estimation of blood pressure from raw electrocardiogram and photoplethysmogram waveforms. Computer Methods and Programs in Biomedicine, 207, Article 106191. https://doi.org/10.1016/j.cmpb.2021.106191

Brown, A., Smith, J., & Lee, T. (2020). Transfer learning in medical image recognition. Journal of Artificial Intelligence Research, 45(3), 210-225.

Chattopadhyay, A., & Maitra, D. (2022). Deep Learning Applications in Brain Tumor Detection. Neurocomputing, 482, 155-166.

Chattopadhyay, T., & Maitra, M. (2022). A review on applications of convolutional neural networks in medical imaging and radiology.

Chen, M., & McDuff, D. (2020). Automated heart rate detection from video using convolutional attention networks. Nature Communications, 11(1), 1-11.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Fatima, I., & Farooq, A. (2020). Analysis of SVM variants for fatigue detection. Journal of Biomedical Engineering, 45(7), 765-772.

Gadekallu, T. R., Khare, N., Bhattacharya, S., et al. (2020). IoT-based image denoising using deep autoencoders. Journal of Big Data Research, 11, 45-56.

Garcia, P., Li, H., & Kim, S. (2019). Hybrid algorithm applications in autonomous robotics. IEEE Robotics and Automation Letters, 4(2), 1123-1130.

Hannun, A. Y., et al. (2019). Cardiologist-Level Arrhythmia Detection and Classification in Ambulatory Electrocardiograms Using a Deep Neural Network. Nature Medicine, 25(1), 65-69.

Hassanien, M. A., Singh, V. K., Puig, D., & Abdel-Nasser, M. (2022). Predicting breast tumor malignancy using deep ConvNeXt radiomics and quality-based score pooling in ultrasound sequences. Diagnostics, 12(5), 1053. https://doi.org/10.3390/diagnostics12051053

Hu, R., Chen, J., & Zhou, L. (2022). A transformer-based deep neural network for arrhythmia detection using continuous ECG signals. Computers in Biology and Medicine, 144, 105325. https://doi.org/10.1016/j.compbiomed.2022.105325

Jia, G., Lam, H.-K., & Xu, Y. (2021). Classification of COVID-19 chest X-ray and CT images using a type of dynamic CNN modification method. Computers in Biology and Medicine, 134, Article 104425. https://doi.org/10.1016/j.compbiomed.2021.104425

Jia, M., Zhang, Y., & Wang, L. (2021). Use of deep learning for COVID-19 detection in chest X-ray images.

Jones, M., & Pérez, F. (2022). Computational efficiency in hybrid machine learning models. Computational Sciences Review, 12(4), 450-467.

Kwapisz, J. R., Weiss, G. M., & Moore, S. A. (2011). Activity recognition using cell phone accelerometers. ACM Transactions on Knowledge Discovery from Data, 1(3), 12-25.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature.

Meng, Y., Speier, W., Ong, M. K., & Arnold, C. W. (2021). Bidirectional representation learning from transformers using multimodal electronic health record data to predict depression. IEEE Journal of Biomedical and Health Informatics, 25(8), 3121–3129.

Min, J., Cai, M., Gou, C., Xiong, C., & Yao, X. (2022). Fusion of forehead EEG with machine vision for real-time fatigue detection in an automatic processing pipeline. Neural Computing and Applications, 34, 1–14. https://doi.org/10.1007/s00521-022-07348-4

Naseem, U., Khushi, M., & Kim, J. (2022). Vision-language transformer for interpretable pathology visual question answering. IEEE Journal of Biomedical and Health Informatics. https://doi.org/10.1109/JBHI.2022.3163751

Noor, S. T., Asad, S. T., Khan, M. M., et al. (2021). Predicting the risk of depression based on ECG using RNN. Computational Intelligence and Neuroscience, 2021, Article 1299870. https://doi.org/10.1155/2021/1299870

Rahul, J., & Sharma, L. D. (2022). Artificial intelligence-based approach for atrial fibrillation detection using normalised and short-duration time-frequency ECG. Biomedical Signal Processing and Control, 71, Article 103270. https://doi.org/10.1016/j.bspc.2021.103270

Risch, M., Grossenbacher, J., Greub, G., et al. (2022). Investigation of the use of a sensor bracelet for the presymptomatic detection of changes in physiological parameters related to COVID-19: An interim analysis of a prospective cohort study. BMJ Open, 12(6), Article e058274. https://doi.org/10.1136/bmjopen-2021-058274

Rong, M., & Li, K. (2021). A multi-type features fusion neural network for blood pressure prediction based on photoplethysmography. Biomedical Signal Processing and Control, 68, Article 102772. https://doi.org/10.1016/j.bspc.2021.102772

Roy, S., Menapace, W., Oei, S., Luijten, B., Fini, E., Saltori, C., … & Smits, M. (2020). Deep learning for classification and localization of COVID-19 markers in point-of-care lung ultrasound. IEEE Transactions on Medical Imaging, 39(8), 2676–2687.

Saha, S., Arulkumaran, S., Dobson, R., et al. (2020). Predicting motor outcome in preterm infants from very early brain diffusion MRI using a deep learning convolutional neural network (CNN) model. NeuroImage, 215, Article 116807. https://doi.org/10.1016/j.neuroimage.2020.116807

Saha, S., Banerjee, P., & Roy, A. (2020). Predicting neurodevelopmental disorders using deep convolutional neural networks.

Saha, S., et al. (2020). Predicting Neurodevelopmental Outcomes Using Deep Learning in Medical Imaging. Pediatric Research, 87(2), 456-467.

Shin, H.-C., Roth, H. R., Gao, M., et al. (2016). Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning. IEEE Transactions on Medical Imaging, 35(5), 1285–1298.

Smith, R., Kaur, D., & Wong, A. (2021). Optimizing AI systems with GPU acceleration. International Journal of High Performance Computing Applications, 35(1), 78-95.

Wang, Z., Han, H., Wang, L., Li, X., & Zhou, L. (2022). Automated radiographic report generation purely on transformer: A multi-criteria supervised approach. IEEE Transactions on Medical Imaging, 41(10), 2803–2813.

Xu, Z., Wang, T., Cao, J., et al. (2021). BECT spike detection based on novel EEG sequence features and LSTM algorithms. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 29, 1734–1743. https://doi.org/10.1109/TNSRE.2021.3104347

Yan, A., Wu, T., Wang, X., Li, J., & Wang, Z. (2022). RadBERT: Adapting transformer-based language models to radiology. Radiology: Artificial Intelligence, 4(4), e210258. https://doi.org/10.1148/ryai.210258

Yildirim, O., Baloglu, U. B., Tan, R.-S., Ciaccio, E. J., & Acharya, U. R. (2019). A new approach for arrhythmia classification using deep coded features and LSTM networks. Computer Methods and Programs in Biomedicine, 176, 121–133. https://doi.org/10.1016/j.cmpb.2019.05.015

Zhang, Y., Chen, K., Weng, Y., Chen, Z., Zhang, J., & Hubbard, R. (2022). An intelligent early warning system of analyzing Twitter data using machine learning on COVID-19 surveillance in the U.S. Expert Systems with Applications, 198, 116882. https://doi.org/10.1016/j.eswa.2022.116882