4.15- Aplicaciones del Aprendizaje por Refuerzo y Redes Neuronales en la Selección de Haces en Sistemas de Comunicación 6G -

Se observa, una joven atleta de maratón equipada con múltiples sensores IoT para monitorear sus parámetros médicos mientras corre. En el fondo, se observan deportistas practicando salto largo, salto con garrocha, lanzamiento de jabalina y lanzamiento de martillo, bajo un entorno de intensa iluminación y drones que recopilan datos. — En un entorno deportivo avanzado, una atleta de maratón monitorea su salud mediante dispositivos IoT mientras otros deportistas participan en diversas disciplinas controladas tecnológicamente.

21/05/2025

Impacto de la Gestión de Haces Electromagnéticos en la Eficiencia de las Redes 6G

En el contexto actual de las telecomunicaciones, las tecnologías avanzadas de gestión de haces electromagnéticos de los enlaces inalámbricos, se han convertido en un pilar fundamental para el desarrollo de las redes 6G. Estas redes, que se caracterizan por su alta densidad de usuarios y su capacidad para soportar comunicaciones de ultra alta velocidad, demandan soluciones innovadoras que permitan maximizar la eficiencia espectral y reducir las interferencias. En este sentido, técnicas basadas en Aprendizaje por Refuerzo, (RL, Reinforcement Learning), tales como el Aprendizaje Q, (Q-Learning), y las Redes Neuronales Profundas, (DQN, Deep Q-Networks), han demostrado ser eficaces para gestionar los haces electromagnéticos en entornos complejos y dinámicos (Mohammadi et al., 2023; Chiang et al., 2021).

De igual forma, la implementación del Aprendizaje por Refuerzo Transferido, (TRL, Transfer Reinforcement Learning), permite a los sistemas de comunicación en redes 6G aprovechar el conocimiento adquirido en entornos 5G, mejorando así la capacidad de adaptación a contextos de mayor densidad y mayor movilidad de usuarios. Esta técnica, que combina la transferencia de políticas aprendidas con el ajuste dinámico de haces, se presenta como una herramienta clave para la gestión eficiente de recursos espectrales en redes vehiculares, drones y sistemas masivos de entrada múltiple y salida múltiple, (MIMO, Multiple Input Multiple Output) (Elsayed & Erol-Kantarci, 2020; P Iturria Rivera, 2024).

Además, el uso del algoritmo de Gradiente de Política Determinista Profunda, (DDPG, Deep Deterministic Policy Gradient), en combinación con técnicas de Redes Neuronales Profundas, ha abierto nuevas posibilidades en la formación adaptativa de haces electromagnéticos en redes de las ondas mmWave, (Millimeter-Wave). Esta estrategia no solo facilita la adaptación en tiempo real de los haces electromagnéticos, sino que también optimiza la calidad del enlace mediante la evaluación continua de los patrones de haces y la selección de configuraciones óptimas basadas en el estado de los canales (Zhu et al., 2023; Zhao et al., 2022).

En términos generales, los avances en Aprendizaje por Refuerzo sin modelo han demostrado ser imprescindibles para la implementación de sistemas de comunicación adaptativos en redes 6G. Estos enfoques permiten que los agentes aprendan políticas óptimas sin depender de un modelo explícito del entorno, lo que resulta especialmente relevante en escenarios donde las condiciones del canal cambian constantemente. Un ejemplo práctico de esta implementación se observa en sistemas vehiculares donde los agentes deben ajustar los haces de RF en función de la velocidad y la densidad de los usuarios (Mnih et al., 2015; Han et al., 2025).

Aplicaciones Futuristas del 6G y Aprendizaje por Refuerzo en el Deporte Inteligente

A partir de los conceptos tecnológicos desarrollados en este artículo, la imagen destacada del artículo representa una síntesis visual de un hipotético entorno deportivo futurista donde confluyen múltiples tecnologías de vanguardia aplicadas al monitoreo, la conectividad y la eficiencia energética. Mientras una joven maratonista se encuentra equipada con sensores IoT que capturan en tiempo real sus parámetros fisiológicos, se hace evidente el papel de la conectividad ubicua y adaptable propia de las redes 6G. De manera simultánea, estos sensores pueden estar comunicándose a través de superficies RIS (Reconfigurable Intelligent Surfaces), las cuales reflejan y redireccionan ondas electromagnéticas para garantizar una señal constante, incluso en condiciones dinámicas de movimiento.

Asimismo, al considerar el uso de algoritmos de aprendizaje por refuerzo como Q-Learning o DDPG en la gestión de haces electromagnéticos, se puede inferir que los sistemas portátiles de la atleta ajustan dinámicamente la dirección y potencia de transmisión de datos en función de la posición de la corredora y de las condiciones del canal electromagnético de comunicación. En esta escena, los drones que sobrevuelan el estadio recogen datos biométricos y de conectividad, que podrían ser analizados mediante técnicas como Deep Reinforcement Learning (DRL), permitiendo decisiones automatizadas en tiempo real sobre la mejor configuración de red y priorización del tráfico médico, garantizando baja latencia y alta fiabilidad.

Del mismo modo, la presencia de otros atletas practicando disciplinas como salto con garrocha o lanzamiento de jabalina ilustra la diversidad de dispositivos IoT y la necesidad de coordinación multiusuario. En este contexto, se sugiere la implementación de enfoques MARL (Multi-Agent Reinforcement Learning) para permitir que cada dispositivo o agente seleccione de forma autónoma las mejores rutas de comunicación y ajuste sus haces electromagnéticos de los enlaces, con mínima interferencia, siguiendo políticas aprendidas previamente mediante TRL (Transfer Reinforcement Learning). Así, la transferencia de conocimiento desde entornos 5G hacia escenarios de 6G permite una adaptación acelerada ante nuevas condiciones, como lo requieren las disciplinas con movimiento explosivo o desplazamiento rápido.

En este entorno tecnológicamente saturado, las comunicaciones entre dispositivos deportivos, estaciones base (BS) y equipos de usuario (UE) se optimizan gracias a redes MIMO masivas y la propagación de ondas mmWave. Tales frecuencias permiten grandes anchos de banda, aunque exigen precisión en la alineación de los haces, por lo que los algoritmos como DQN (Deep Q-Network) y SADOL pueden ser empleados para mantener la conectividad sin pérdida de señal, incluso en medio de movimientos bruscos o interferencias. Los haces adaptativos seleccionados por estos algoritmos aseguran que los datos biométricos lleguen en tiempo real a los centros de monitoreo, permitiendo intervenciones médicas preventivas o ajustes en el rendimiento del atleta.

En paralelo, se evidencia la importancia del control energético. Los sistemas de gestión de haces basados en Q-Learning no solo mejoran la calidad del enlace, sino que también permiten reducir el consumo energético al evitar escaneos innecesarios y concentrar la señal solo en áreas donde se detecta actividad. Esta optimización se traduce en una mayor autonomía de los dispositivos portátiles y una operación más sostenible, aspecto clave en eventos deportivos de larga duración como maratones o competencias múltiples. De esta forma, la escena retratada en la imagen también simboliza un futuro donde sostenibilidad y rendimiento convergen mediante la inteligencia de red.

Por otra parte, la utilización de NFC (Near Field Communication) en los wearables podría servir para intercambiar rápidamente datos entre atletas, entrenadores y sistemas de análisis sin necesidad de contacto físico, empleando protocolos estándar como ISO/IEC 14443 o FeliCa. Esta interacción rápida y segura facilitaría la sincronización de estrategias de equipo, autenticación de participantes o incluso habilitación de pagos móviles en instalaciones deportivas. Su combinación con RIS y ondas mmWave posibilita la comunicación holográfica y la realidad aumentada, agregando una dimensión inmersiva al entorno deportivo.

En consecuencia, la imagen sintetiza un ecosistema tecnológicamente coordinado donde la conectividad inalámbrica de sexta generación, la inteligencia artificial distribuida mediante aprendizaje por refuerzo y la gestión energética convergen en una experiencia deportiva optimizada, personalizada y segura. A través de la representación de disciplinas atléticas coexistiendo con una red de drones, sensores y algoritmos inteligentes, se proyecta una visión futurista de cómo las tecnologías avanzadas modelan la medicina deportiva, el rendimiento humano y la interacción máquina-humano.

Implementación del Aprendizaje por Refuerzo en Redes 6G

Además, al implementar técnicas avanzadas de aprendizaje por refuerzo, los sistemas RIS pueden aprender a identificar las rutas de propagación más efectivas, reduciendo así las interferencias y potenciando la calidad del enlace.

Estudios Recientes sobre el Uso de RL en Comunicaciones 6G

En consecuencia, estudios recientes, como los de Fatima y Kondamuri (2025) y Tariq et al. (2024), demuestran que la integración de superficies RIS con algoritmos de aprendizaje RL no solo es factible, sino también altamente beneficiosa para optimizar las comunicaciones en entornos complejos.

Gestión Inteligente de Recursos Espectrales mediante RIS

Así, las superficies RIS representan un avance significativo en la evolución de las redes 6G, ya que permiten una gestión inteligente de los recursos espectrales y mejoran la eficiencia global del sistema mediante el uso coordinado de técnicas basadas en aprendizaje por refuerzo.

Aplicaciones del Aprendizaje Q-Learning en Redes 6G

En efecto, los algoritmos de Q-Learning en redes 6G se aplican no solo a la gestión de haces electromagnéticos de los enlaces inalámbricos, sino también a la asignación dinámica de recursos, al control de potencia y la gestión de interferencias, constituyéndose como una herramienta fundamental para el despliegue de redes ultra densas y comunicaciones aéreas-terrestres (Geranmayeh & Grass, 2024).

Técnicas de Aprendizaje por Refuerzo sin Modelo en Redes Dinámicas

Sin duda, el aprendizaje por refuerzo sin modelo emerge como una técnica en la que el agente aprende a seleccionar la acción óptima mediante la evaluación del valor Q de cada acción, es decir, su calidad o conveniencia. Esta metodología resulta particularmente eficaz en entornos dinámicos donde el modelo del entorno no está completamente definido o resulta excesivamente complejo para representarlo explícitamente. En lugar de seguir un modelo predefinido, el agente explora acciones alternativas y ajusta sus decisiones a partir de la retroalimentación recibida. Así, el objetivo del algoritmo Q-learning es encontrar una política óptima que maximice la recompensa acumulativa a lo largo del tiempo (Watkins & Dayan, 1992).

Aplicaciones Prácticas del Aprendizaje por Refuerzo sin Modelo

De esta manera, el aprendizaje por refuerzo sin modelo (RL, Reinforcement Learning) se presenta como una técnica que permite al agente aprender a seleccionar acciones óptimas evaluando el valor Q de cada acción sin necesidad de un modelo explícito del entorno. Esta metodología es particularmente eficaz en contextos de alta complejidad donde los modelos son difíciles de definir o predecir, como sucede en la selección de haces electromagnéticos en redes 6G. Por ejemplo, en un estudio reciente, se implementó un algoritmo Q-learning para optimizar la selección de haces en redes vehiculares 6G utilizando antenas de haz conmutado, logrando una mejora significativa en la precisión del seguimiento de haces y en la eficiencia del sistema (Tiang, Mahmud, Chin, 2023).

Optimización de la Selección de Haces mediante Q-Learning en Redes 6G

De manera similar, el uso de aprendizaje por refuerzo sin modelo ha sido fundamental en la implementación de sistemas de selección de haces en sistemas de comunicación móvil 6G, donde la coordinación entre estaciones base (BS, Base Station) y equipos de usuario (UE, User Equipment) requiere una evaluación constante de los canales y haces disponibles (Ghassemi et al., 2024). En este contexto, el agente emplea técnicas como Q-learning para evaluar la calidad de cada haz, seleccionando el más adecuado según las condiciones cambiantes del entorno.

Deep Reinforcement Learning para la Gestión de Haces en Redes 6G

Asimismo, otro estudio relevante en el campo propone un enfoque basado en Deep Reinforcement Learning (DRL, Deep Reinforcement Learning), que combina redes neuronales profundas con aprendizaje por refuerzo para gestionar la asignación de haces en redes 6G (Duong et al., 2023). En esta implementación, los agentes aprenden a seleccionar haces óptimos para maximizar el rendimiento del enlace, especialmente en situaciones de alta movilidad y en entornos urbanos densos.

Coordinación de Haces en Redes 6G mediante Aprendizaje Transferido

En otro contexto, la integración del aprendizaje por refuerzo sin modelo con técnicas de agrupamiento de usuarios ha demostrado ser efectiva para optimizar la selección de haces en redes 6G. Un estudio sobre el uso de Aprendizaje por Refuerzo Transferido (TRL, Transfer Reinforcement Learning) ilustra cómo el agente puede aprender políticas óptimas en una red 5G y luego transferir ese conocimiento a un entorno 6G con un número significativamente mayor de haces disponibles (Elsayed, Erol-Kantarci, 2020).

Aprendizaje por Refuerzo Transferido para Redes 6G

En relación al Aprendizaje por Refuerzo Transferido (TRL, Transfer Reinforcement Learning), es una tecnología que combina el aprendizaje por refuerzo con el aprendizaje por transferencia, permitiendo a un agente aplicar el conocimiento adquirido en un entorno a otro contexto similar pero distinto. Este enfoque es particularmente útil en sistemas donde los datos de entrenamiento son costosos o difíciles de obtener, lo que permite aprovechar experiencias previas para acelerar el proceso de aprendizaje en nuevas tareas (P Iturria Rivera, 2024).

Además, el funcionamiento del TRL implica el uso de políticas óptimas aprendidas en un entorno inicial y su transferencia a un entorno destino. En el caso de las redes 6G, este proceso permite a los agentes aprender políticas de asignación de recursos en un sistema 5G y aplicarlas eficazmente en un sistema 6G con mayor densidad de haces y conexiones. De esta forma, el TRL no solo reduce los tiempos de entrenamiento, sino que también minimiza los costos computacionales al reutilizar políticas previamente aprendidas (P Iturria Rivera, 2024).

Gestión Multiagente de Haces mediante Aprendizaje por Refuerzo

Asimismo, las características técnicas del TRL en el contexto de las redes 6G incluyen su capacidad para gestionar múltiples agentes a través del aprendizaje por refuerzo multiagente (MARL, Multi-Agent Reinforcement Learning). Esto es esencial en redes 6G debido a la proliferación de dispositivos y la necesidad de asignación dinámica de haces. En este contexto, el TRL permite a los agentes colaborar entre sí para optimizar el uso del espectro, mejorar la calidad del servicio y reducir la interferencia entre usuarios. Un ejemplo práctico es la optimización de haces en sistemas MIMO (Multiple Input Multiple Output), donde los agentes pueden aprender políticas de selección de haces en un entorno 5G y transferir esas políticas a un entorno 6G más complejo (Elsayed & Erol-Kantarci, 2020).

Implementación del TRL en Sistemas MIMO

En términos de aplicaciones prácticas, una implementación destacada del TRL en redes 6G consiste en la coordinación de vehículos autónomos mediante la asignación dinámica de recursos espectrales. En este escenario, los vehículos actúan como agentes en un entorno multiusuario, donde el TRL permite que los agentes aprendan políticas de comunicación óptimas basadas en el tráfico vehicular de una red 5G y apliquen dichas políticas en una red 6G. Esta transferencia de políticas facilita la adaptación a nuevos escenarios sin necesidad de entrenar desde cero, lo que incrementa la eficiencia operativa y la capacidad de respuesta en tiempo real (Elsayed & Erol-Kantarci, 2020).

Uso del Aprendizaje por Refuerzo en Redes Vehiculares 6G

Bajo estas consideraciones, la integración del Aprendizaje por Refuerzo Transferido (TRL, Transfer Reinforcement Learning) con tecnologías de 6G también se extiende a la optimización del control de drones en redes urbanas densamente pobladas. En este contexto, los drones pueden aprender políticas de gestión del espectro en un entorno 5G y reutilizarlas en un entorno 6G con mayor densidad de usuarios y mayores exigencias de ancho de banda. Esta capacidad de transferencia no solo permite una gestión más eficaz del espectro, sino que también mejora la coordinación entre drones, minimizando el riesgo de interferencias y colisiones.

Optimización Energética mediante Q-Learning en Redes 6G

Por lo tanto, el empleo del aprendizaje por refuerzo sin modelo para la selección de haces electromagnéticos de los enlaces inalámbricos de las redes 6G no solo mejora la calidad del enlace, sino que también permite una reducción considerable del consumo energético del sistema. Un artículo reciente detalla la implementación de un sistema basado en Q-learning para ajustar dinámicamente la intensidad de los haces en función de las condiciones del canal, lo que resulta en una mayor eficiencia energética sin comprometer la calidad de la conexión (Brilhante, Moreira, 2023).

Estrategias de Gestión de Haces Basadas en Q-Learning

Bajo estas perspectivas, se diseñan modelos de gestión de haces BM basados en Q-learning que buscan encontrar el mejor haz en función de la máxima potencia recibida. Para abordar el problema de selección de haces, se han propuesto estrategias que consideran una recompensa basada en la potencia recibida. Durante la fase de exploración, un agente selecciona un conjunto específico de haces de servicio y evalúa la recompensa correspondiente a dicho conjunto. De este modo, se permite al agente seleccionar haces no óptimos, pero potencialmente útiles para descubrir alternativas viables. Por otro lado, durante la fase de explotación, el agente selecciona consistentemente los haces óptimos que maximizan la potencia recibida.

En el contexto de las redes de comunicación móvil de sexta generación (6G), el diseño de técnicas de gestión de haces electromagnéticos (BM, Beam Management) basadas en algoritmos de Q-Learning se presenta como una solución prometedora para optimizar los enlaces inalámbricos. De esta forma, las técnicas basadas en Q-Learning permiten al agente seleccionar el haz óptimo en función de la potencia recibida, lo cual es fundamental para mejorar la eficiencia en escenarios con alta densidad de usuarios (Cumanan & Geok, 2024).

En consecuencia, los algoritmos de Q-Learning implementan estrategias de recompensa basadas en la potencia recibida, de manera que el agente evalúe múltiples haces durante la fase de exploración para identificar alternativas potenciales. Durante esta etapa, el agente puede seleccionar haces que, aunque no sean óptimos, podrían proporcionar información útil para futuras decisiones (Mohammadi et al., 2023). Por otro lado, en la fase de explotación, el agente selecciona los haces previamente identificados como óptimos, maximizando así la potencia recibida.

Aplicaciones del Q-Learning en Sistemas Massive MIMO

En términos de aplicaciones prácticas, un ejemplo claro se observa en los sistemas Massive MIMO, los cuales utilizan algoritmos basados en Q-Learning para ajustar dinámicamente los haces electromagnéticos en función de la potencia recibida, optimizando así el rendimiento del enlace (Alhammadi & Shayea, 2025). Otro caso relevante es el empleo de Q-Learning en redes 6G para la gestión de interferencias en celdas pequeñas, donde se implementan técnicas basadas en recompensas para evaluar la efectividad de cada haz (Cho & Kwak, 2024).

Gestión de Interferencias en Redes 6G mediante Q-Learning

Del mismo modo, los sistemas de comunicación vehicular V2X (Vehicle-to-Everything) han comenzado a integrar técnicas de Q-Learning para gestionar los haces electromagnéticos de los enlaces inalámbricos, en escenarios altamente dinámicos. En estos contextos, se emplean algoritmos de Q-Learning que permiten seleccionar haces en función de la potencia recibida, garantizando una conectividad estable y de alta velocidad entre vehículos y estaciones base (Han et al., 2025).

Selección de Haces en Redes Vehiculares con Q-Learning

Por consiguiente, el uso de algoritmos Q-Learning en la gestión de haces electromagnéticos en redes 6G se fundamenta en estrategias basadas en recompensas por potencia recibida. Esta metodología no solo mejora la eficiencia en la selección de haces, sino que también permite explorar alternativas potenciales durante la fase de exploración, optimizando la conectividad y el rendimiento del sistema.

Uso de Redes DQN en la Gestión Adaptativa de Haces

En lo que se refiere a las aplicaciones prácticas, para el enfoque basado en Q-learning se implementa en problemas de gestión de haces electromagnéticos, donde se busca identificar el haz con la mayor potencia recibida. En esta línea, el proceso considera recompensas basadas en la potencia recibida al emplear un haz particular, permitiendo al sistema aprender qué haces son más efectivos para maximizar la calidad de la señal. Un caso práctico de esta técnica se observa en redes de telecomunicaciones de microondas milimétricas mmWave, donde se emplea para seleccionar haces que garantizan conectividad robusta, incluso en entornos altamente dinámicos donde la posición de los dispositivos y los obstáculos cambian constantemente (Li et al., 2020).

Tecnologías mmWave y Alineación de Haces en Redes 6G

Así pues, la gestión de haces electromagnéticos en redes 6G se enfoca en maximizar la potencia recibida mediante la identificación de haces óptimos. En este contexto, los sistemas de comunicación de ondas mmWave, (Millimeter-Wave), juegan un papel fundamental en las redes 6G debido a sus altas frecuencias, permitiendo una mayor capacidad de datos y un menor tiempo de latencia (Catak et al., 2022). Sin embargo, la gestión efectiva de estos haces se convierte en un desafío crítico, especialmente en entornos dinámicos donde las posiciones de los dispositivos y los obstáculos cambian constantemente (Bouraqia & Sabir, 2022). En consecuencia, se requiere la implementación de técnicas avanzadas de gestión de haces, tales como el aprendizaje profundo y la formación de haces adaptativa, para identificar el haz que proporciona la mayor potencia recibida (Li et al., 2024).

Métodos de Alineación de Haces Basados en Aprendizaje Automático

Por otra parte, las técnicas de gestión de haces en redes 6G pueden clasificarse en métodos de alineación de haces y métodos basados en aprendizaje automático. En primer lugar, la alineación de haces implica la identificación de la dirección óptima de transmisión mediante algoritmos que escanean múltiples direcciones hasta encontrar el haz con la mayor potencia recibida (Zhang et al., 2023). Un ejemplo práctico de esta técnica es el uso de barridos de haces en redes vehiculares, donde los sistemas deben adaptarse rápidamente a cambios en el entorno y seleccionar el haz con la máxima intensidad de señal (Ahmed et al., 2023).

Redes Neuronales para la Selección de Haces en Redes MIMO

En el mismo sentido, el aprendizaje automático se ha convertido en un componente esencial en la gestión de haces en 6G. Modelos basados en redes neuronales y aprendizaje profundo permiten predecir la mejor dirección del haz en función de datos previos sobre el entorno de comunicación. Por ejemplo, Nguyen y Nguyen (2022) proponen un marco basado en aprendizaje profundo para seleccionar haces en redes MIMO masivas, reduciendo significativamente el tiempo de búsqueda del haz óptimo y mejorando la calidad del enlace.

Aplicación del Q-Learning en Redes de Microondas mmWave

Con respecto a su implementación práctica, el enfoque basado en Q-learning se ha implementado en redes 6G para identificar haces con alta potencia recibida. En este contexto, la técnica considera recompensas basadas en la potencia de señal recibida, permitiendo al sistema aprender de manera adaptativa cuáles son los haces más eficaces en situaciones cambiantes (Sim et al., 2020). De igual forma, Droulias et al. (2024) destacan el uso de haces adaptativos en comunicaciones de campo cercano, optimizando la transmisión en entornos urbanos densos.

Aplicación del Aprendizaje por Refuerzo en Redes de Campo Cercano NFC

En términos generales, la tecnología de la comunicación de campo cercano, (NFC, Near Field Communication), se define como un protocolo de comunicación inalámbrica de corto alcance que permite la transferencia de datos entre dispositivos situados a una distancia cercana, generalmente inferior a 10 centímetros. Funciona mediante la inducción electromagnética entre dos dispositivos, uno activo que emite señales y otro pasivo que responde a ellas. Esta tecnología utiliza frecuencias de radio de 13,56 MHz y se basa en los estándares ISO/IEC 14443 y FeliCa, permitiendo velocidades de transmisión de datos de hasta 424 kbit/s (Zhao et al., 2024). En el contexto de la tecnología 6G, NFC se integra con tecnologías avanzadas como superficies inteligentes reconfigurables, (RIS, Reconfigurable Intelligent Surfaces), para crear redes de comunicación ultra densas y de baja latencia (Umer et al., 2025).

Protocolos de Comunicación NFC en Redes 6G

Para aclarar, los estándares ISO/IEC 14443 y FeliCa son protocolos clave en la tecnología NFC. El estándar ISO/IEC 14443 define un método para la comunicación sin contacto entre dispositivos a corta distancia, abarcando aspectos como la frecuencia operativa de 13,56 MHz y la estructura de los datos transmitidos. Se divide en dos tipos: Tipo A y Tipo B, que especifican diferentes técnicas de modulación y protocolos de comunicación. Por otro lado, FeliCa es un sistema desarrollado por Sony que opera también en la frecuencia de 13,56 MHz, permitiendo la transferencia rápida y segura de datos mediante autenticación y cifrado. Ambos estándares facilitan la interoperabilidad de dispositivos NFC, asegurando la compatibilidad y eficiencia en aplicaciones como pagos móviles y acceso seguro (Zhao et al., 2024).

Integración de NFC y Redes 6G: Oportunidades y Desafíos

Por otra parte, las características técnicas del NFC en 6G incluyen la capacidad para soportar aplicaciones de alta frecuencia, interoperabilidad mejorada con dispositivos IoT, (IoT, Internet of Things), y la integración con sistemas de comunicación holográfica. En entornos urbanos densos, la utilización de haces adaptativos optimiza el rendimiento del NFC al aumentar la eficiencia espectral y minimizar la interferencia (Sim et al., 2020). A nivel práctico, esta tecnología se aplica en casos como la autenticación de usuarios mediante dispositivos portátiles, la transferencia de datos en sistemas de transporte inteligente y la habilitación de pagos móviles sin contacto (Pennanen et al., 2024).

Implementación de Superficies Inteligentes Reconfigurables RIS en Redes 6G

En términos concretos, se ha demostrado que las superficies inteligentes reconfigurables permiten crear entornos de comunicación controlados mediante la manipulación de señales electromagnéticas, lo cual resulta fundamental en escenarios de campo cercano donde las señales deben ser direccionadas de forma precisa para optimizar la conectividad (Alam et al., 2025). Estos avances no solo potencian la eficacia de los sistemas NFC, sino que también crean nuevas oportunidades para la implementación de redes híbridas de comunicación que combinan 6G con tecnologías de campo cercano para aplicaciones industriales y de consumo.

Integración de NFC y Superficies RIS para Comunicaciones Avanzadas

Ciertamente, la combinación de la comunicación NFC y 6G abre un espectro de aplicaciones avanzadas, como la transmisión de hologramas, la conexión de dispositivos de realidad aumentada y la implementación de redes inteligentes en entornos urbanos y rurales. Por ejemplo, un estudio reciente implementó un sistema de hologramas multiusuario asistido por computación en el borde que utiliza la comunicación NFC para sincronizar los datos entre los dispositivos (Gomez-Raya, 2024).

Reducción del Consumo Energético mediante Q-Learning en Redes 6G

No cabe duda, que las tecnologías relacionadas con la gestión de haces electromagnéticos en 6G se orientan a la maximización de la potencia recibida mediante técnicas avanzadas de alineación de haces y aprendizaje automático. Ejemplos prácticos incluyen sistemas vehiculares, redes MIMO masivas y comunicaciones en entornos urbanos dinámicos, donde la identificación del haz óptimo es esencial para garantizar la calidad del enlace.

Técnicas para Reducir la Sobrecarga Computacional en DDPG

En consecuencia, se han desarrollado líneas de trabajo complementarias que integran el Q-learning con pares auxiliares de haces electromagnéticos, lo que contribuye a reducir el espacio de búsqueda. Sin embargo, cabe señalar que una limitación inherente al Q-learning es la necesidad de realizar múltiples iteraciones para alcanzar la convergencia, dado que es fundamental explorar todos los pares de acción-estado. Esta característica restringe su aplicabilidad a equipos de usuario con movilidad rápida (Watkins & Dayan, 1992).

Desde este punto de vista, la fase de exploración permite al agente probar haces que, en un primer momento, no parecen ser los más óptimos. No obstante, esta exploración de alternativas resulta esencial para identificar haces que podrían ser más efectivos en situaciones específicas o en escenarios cambiantes. Por ejemplo, en una red de comunicaciones inalámbricas, el agente podría inicialmente optar por haces electromagnéticos que no proporcionan la mayor potencia. Sin embargo, con el tiempo y tras recibir retroalimentación del entorno, podría descubrir haces alternativos que optimicen la señal en condiciones más desafiantes, como la interferencia o la obstrucción temporal (Mnih et al., 2015).

En complemento, es importante señalar que el diseño del algoritmo Q-learning presenta una limitación fundamental: requiere varias iteraciones para converger, ya que debe explorar exhaustivamente todos los pares posibles de estado y acción antes de determinar la mejor política. En aplicaciones de comunicaciones, como la selección de haces, esto implica la necesidad de múltiples iteraciones antes de que el sistema identifique la configuración óptima para maximizar la potencia recibida. Aunque este enfoque garantiza una solución óptima a largo plazo, puede no ser adecuado en entornos donde los estados cambian rápidamente, como es el caso de dispositivos móviles o redes con alta volatilidad (Watkins & Dayan, 1992).

A esto se suma, la generación de una preocupación significativa en torno al seguimiento de haces en equipos de usuario de alta velocidad. Bajo esta óptica, el desafío aumenta debido a la necesidad de un rango de seguimiento de haces más amplio, especialmente en condiciones de alta velocidad. Para abordar este problema, se está investigando un espacio de acción más amplio y una convergencia más lenta en los algoritmos de Q-learning. Para superar la convergencia lenta, se propone el uso de múltiples agentes de Q-learning que operan en paralelo, diseñando su entrenamiento para diferentes subgrupos de haces. De esta manera, se logra una alineación de haces más rápida y una mayor eficiencia espectral.

Uso de Redes Neuronales DQNs para la Gestión de Haces en Entornos Complejos

En esta línea, se están explorando redes neuronales profundas (DQNs, Deep Q-Networks) que permiten aproximar los valores Q mediante el uso de redes neuronales, incrementando la capacidad del sistema para manejar escenarios complejos y cambiantes.

Redes DQNs para el Seguimiento de Haces en Usuarios Móviles

En relación al seguimiento de haces, especialmente cuando se trata de equipos de usuario que se desplazan a alta velocidad, el principal desafío radica en mantener una alineación precisa y rápida de los haces de radiofrecuencia (RF, Radio Frequency). A medida que el equipo se mueve más rápidamente, la necesidad de un seguimiento eficiente de haces se vuelve fundamental, dado que un retraso en la alineación podría resultar en una pérdida considerable de señal o interrupciones en la conectividad. Un ejemplo claro de esto es el caso de vehículos en movimiento que requieren conexión continua a redes 5G. En este contexto, el aumento del rango de seguimiento de haces permite mantener una conexión estable a pesar de los rápidos cambios en la posición del usuario, aunque también introduce complejidades en la sincronización y precisión de la alineación (Chiang et al., 2021; Jean et al., 2024; Khan et al., 2023).

Al mismo tiempo, en algoritmos como Q-learning, un espacio de acción de estado más grande implica que existen más combinaciones posibles de estados y acciones que el agente debe explorar para determinar la política óptima. En consecuencia, esto conlleva una convergencia más lenta, ya que el agente necesita evaluar una mayor cantidad de opciones antes de identificar la acción más adecuada. En el contexto de la selección de haces de RF, un espacio de estado más extenso podría representar un mayor número de haces posibles a seleccionar, prolongando el tiempo necesario para encontrar el haz óptimo. Por ejemplo, en un entorno urbano donde los obstáculos y la interferencia son comunes, el agente debe explorar múltiples configuraciones de haces antes de identificar la que maximice la calidad de la señal (Yajnanarayana et al., 2020; Zade et al., 2022).

Resulta esencial reseñar que, para acelerar la convergencia en el seguimiento de haces de RF, es viable emplear múltiples agentes de Q-learning que operen en paralelo. Cada agente podría ser entrenado para gestionar un subgrupo específico de haces, lo cual disminuiría la carga de exploración para cada uno y aceleraría el proceso de búsqueda de la mejor alineación de haz. En aplicaciones industriales, esta estrategia puede implementarse en sistemas de telecomunicaciones masivas, como en redes 5G, donde múltiples agentes colaboran para gestionar haces en diferentes sectores de una estación base, mejorando la eficiencia espectral y minimizando la sobrecarga en la red (Pham et al., 2024; Hoseini et al., 2020).

Procede subrayar, que el entrenamiento de múltiples agentes para distintos subgrupos de haces se fundamenta en la segmentación del espacio de búsqueda en secciones manejables, permitiendo que cada agente se especialice en optimizar un subgrupo específico. Este enfoque no solo acelera la convergencia, sino que además refuerza la robustez del sistema ante cambios rápidos en el entorno o la velocidad del usuario. Un ejemplo práctico se observa en fábricas inteligentes donde robots móviles o vehículos autónomos deben mantener conectividad continua a pesar de los obstáculos o el movimiento rápido dentro del entorno (Zhao et al., 2022).

Implementación del Algoritmo DDPG en Redes 6G

Cabe mencionar, que las Redes Neuronales Profundas (DQNs, Deep Q-Networks) ofrecen la capacidad de aproximar los valores Q a través de una red neuronal, posibilitando la gestión eficiente de grandes espacios estado-acción. En lugar de almacenar explícitamente cada valor Q, la red neuronal generaliza a partir de los datos observados, reduciendo así la demanda de memoria y acelerando el aprendizaje. Por ejemplo, en sistemas de seguimiento de haces adaptativos, las redes DQNs permiten un ajuste dinámico de los haces de la antena en función de la movilidad del usuario. En aplicaciones industriales como los sistemas de transporte inteligente, el uso de redes DQNs permite a los vehículos en movimiento mantener conexiones de alta calidad a redes de comunicación de alta velocidad, incluso en entornos densamente poblados (Mnih et al., 2015).

Aprendizaje Continuo mediante DDPG en Redes 6G

Tiene importancia describir, la propuesta de un enfoque basado en DQN que se adapta a los cambios ambientales ajustando el rango de sondeo de los haces electromagnéticos, lo cual resulta especialmente útil para equipos de usuario con alta movilidad. Investigaciones recientes han evaluado el rendimiento de equipos móviles lentos y rápidos, indicando que el enfoque basado en redes DQN no solo converge más rápidamente que el Q-learning, sino que también alcanza una mayor velocidad de transmisión de datos agregados, en comparación con el Sistema de Sondeo Exhaustivo (EBS) y los enfoques jerárquicos.

Optimización del Consumo Energético mediante DDPG

Resalta el hecho, donde el rendimiento de equipos móviles, tanto lentos como rápidos, puede mejorarse significativamente utilizando redes DQNs. Este enfoque permite identificar patrones de manera más rápida y precisa, ajustando los haces de RF en tiempo real. Por ejemplo, en vehículos autónomos que operan en entornos dinámicos, el uso de redes DQNs posibilita que el sistema ajuste los haces electromagnéticos de RF de manera más eficiente que con Q-learning, mejorando así la calidad de conexión y reduciendo la latencia en la transmisión de datos (Mnih et al., 2015).

DDPG y la Reducción del Espacio de Búsqueda en Redes 6G

Teniendo en cuenta investigaciones recientes, se ha demostrado que el enfoque basado en Deep Q-Network (DQN) puede mejorar significativamente la velocidad de transmisión de datos en comparación con los sistemas de Sondeo de Haz (EBS, Exhaustive Beam Search) y los métodos jerárquicos de búsqueda de haces. En lugar de evaluar exhaustivamente todas las configuraciones posibles de haces, la tecnología de redes DQN aprende a partir de interacciones previas, seleccionando rápidamente la configuración óptima y reduciendo el tiempo de búsqueda (Chen, Liu, & Zhang, 2023). Por ejemplo, en redes de las ondas mmWave, donde la conectividad se ve afectada por obstáculos físicos, las redes DQN ajustan de manera eficiente el haz electromagnético, maximizando la transmisión de datos en escenarios de alta densidad de usuarios (Li et al., 2024).

De este modo, la técnica basada en redes DQN con múltiples agentes permite asignar diferentes subgrupos de haces a cada agente, optimizando la búsqueda y alineación de haces de forma paralela. Este enfoque no solo maximiza el rendimiento de la red, sino que también minimiza la sobrecarga relacionada con la alineación de los haces electromagnéticos, al ajustar el ancho del haz de la antena (Zhao, Zhai, & Zhang, 2022). Un caso práctico es el uso en fábricas inteligentes con numerosos dispositivos conectados a redes 5G, donde los múltiples agentes en redes DQN permiten a cada dispositivo optimizar su conectividad de forma independiente, mejorando la eficiencia espectral y garantizando una transmisión de datos estable en entornos densamente poblados (Bahrpeyma & Reichelt, 2022).

Limitaciones de DQNs y Propuestas de Mejora mediante DDPG

Debe señalarse, que se ha identificado una limitación fundamental de las redes neuronales profundas basadas en redes DQN, dado que, en su forma original, son útiles para espacios de acción discretos y de baja dimensión (Hribar, DaSilva, & Zhou, 2021). Para superar esta limitación, se ha propuesto el desarrollo del algoritmo de Gradiente de Política Determinista Profunda (DDPG, Deep Deterministic Policy Gradient) con el objetivo de mejorar el rendimiento de las redes DQN para tareas con espacios de acción continuos. En este contexto, el DDPG utiliza dos redes neuronales, una para el actor y otra para el crítico. El actor toma el estado como entrada y selecciona la mejor acción, mientras que el crítico evalúa la acción elegida calculando la función de valor (Wang et al., 2024).

Aplicación del DDPG en Redes MIMO Masivas

En relación a esto, se ha planteado la aplicación del algoritmo DDPG en la formación de haces (BM, Beamforming), donde el objetivo es aprender a adaptar el libro de códigos de haces en función del entorno circundante, mejorando así la capacidad para gestionar espacios de acción de alta dimensión (Cui et al., 2022).

Es relevante apuntar, que las Redes Neuronales Profundas (DQN) en su forma original se aplican principalmente en espacios de acción discretos y de baja dimensión. Un ejemplo práctico es el control de tráfico, donde el espacio de acción se compone de configuraciones limitadas de semáforos. Aquí, la red DQN aprende a seleccionar la mejor configuración de semáforos basándose en datos previos, optimizando el flujo vehicular (Zhao et al., 2020).

Por lo tanto, para superar las limitaciones de los algoritmos de Deep Q Networks (DQNs) en espacios de acción continuos, se desarrolló el algoritmo de Gradiente de Política Determinista Profunda (DDPG, Deep Deterministic Policy Gradient). A diferencia de los DQNs, que están diseñados para espacios de acción discretos, el DDPG se adapta a tareas donde las acciones pueden ser continuas, como el ajuste preciso de los controles de un dron. En este contexto, el DDPG permite al agente tomar decisiones en un espacio de acción continuo, ajustando, por ejemplo, la inclinación de las hélices en ángulos exactos para mantener la estabilidad durante el vuelo (Lillicrap et al., 2015).

Como se ha descrito, el algoritmo DDPG emplea dos redes neuronales: una para el «actor» y otra para el «crítico». Donde, el actor es la red, que toma el estado actual como entrada y selecciona la mejor acción a realizar, mientras que el crítico evalúa la acción seleccionada calculando la función Q, que estima el valor esperado de las acciones en cada estado. En aplicaciones como el control robótico en tiempo real, el actor ajusta los movimientos del robot, mientras que el crítico evalúa los resultados para optimizar decisiones futuras (Silver et al., 2014).

Hay que mencionar, que el actor recibe el estado como entrada, y puede tomar decisiones óptimas ajustadas a las circunstancias específicas del entorno. Por ejemplo, en un vehículo autónomo, el actor puede determinar la velocidad o dirección óptima basándose en el tráfico, las condiciones climáticas y otros factores relevantes. Esta capacidad de adaptación convierte al algoritmo DDPG en una herramienta eficaz para entornos dinámicos donde los estados cambian constantemente (Lillicrap et al., 2015).

Por lo que respecta a la función Q, ésta, es fundamental, ya que permite al sistema evaluar la efectividad de las acciones seleccionadas. Esta función estima el retorno esperado a largo plazo a partir de un estado y una acción específica, facilitando la comprensión de las consecuencias futuras de las acciones actuales. En aplicaciones de Formación de Haces de RF (Beamforming), la función Q permite ajustar los haces de la antena para maximizar la calidad de la señal en función del entorno cambiante (Zhu et al., 2023).

Dentro de este orden de planteamientos, el algoritmo DDPG no solo permite la optimización de configuraciones de haces electromagnéticos de los enlaces inalámbricos en las redes 5G, sino que también proporciona un marco robusto para la adaptación dinámica en entornos cambiantes. Por ejemplo, en las redes de ondas mmWave, donde la densidad de dispositivos es alta y la interferencia es un factor crítico, el ajuste en tiempo real de los haces a través de aprendizaje RL, permite mantener la calidad del enlace sin requerir un conocimiento explícito del canal (Alkhateeb et al., 2020).

Adicionalmente, el proceso de aprendizaje basado en el algoritmo DDPG puede ser extendido para gestionar no solo la selección de haces, sino también la coordinación entre múltiples antenas en redes masivas MIMO. En tales escenarios, el desafío radica en la coordinación efectiva de múltiples haces electromagnéticos para evitar interferencias y maximizar la eficiencia espectral. A través del uso de redes neuronales profundas, el algoritmo DDPG puede aprender patrones de configuración óptimos basados en la retroalimentación obtenida del entorno, permitiendo así una asignación dinámica de haces en función de la localización de los usuarios y las condiciones del canal (Zhu et al., 2019).

Contraste entre Aprendizaje Supervisado y Aprendizaje por Refuerzo en Redes 6G

Considerando otro aspecto, el enfoque basado en aprendizaje RL contrasta significativamente con los métodos convencionales de Aprendizaje Supervisado (SL, Supervised Learning). Mientras que en el aprendizaje SL se requiere un conjunto de datos etiquetados y un conocimiento explícito del canal, el aprendizaje RL permite que el sistema aprenda directamente de la interacción con el entorno, reduciendo la dependencia de datos previamente etiquetados. Sin embargo, esta independencia conlleva un costo computacional, especialmente durante la fase inicial de aprendizaje, donde el sistema debe explorar una amplia gama de configuraciones posibles para identificar las más eficaces (Alkhateeb et al., 2020).

Impacto de las Imperfecciones del Hardware en el Aprendizaje por Refuerzo

En relación con las imperfecciones de hardware, un aspecto crítico que se está investigando es cómo estas afectan los patrones de haces aprendidos mediante el algoritmo DDPG. Durante la fase de entrenamiento, el sistema debe considerar la presencia de ruidos y distorsiones introducidas por los componentes del hardware, lo que puede alterar significativamente las configuraciones óptimas de haces. De hecho, los estudios preliminares basados en conjuntos de datos como DeepMIMO demuestran que el enfoque del algoritmo DDPG puede mitigar el impacto de tales imperfecciones al ajustar continuamente los haces basados en la retroalimentación del entorno. No obstante, un desafío persistente es la sobrecarga generada durante la fase inicial de aprendizaje. Dado que el sistema debe explorar exhaustivamente el espacio de configuraciones posibles, la carga computacional aumenta considerablemente, lo que puede resultar prohibitivo en aplicaciones en tiempo real.

Aplicaciones del Aprendizaje por Refuerzo en Redes de Alta Movilidad

En esta línea de análisis, aunque el enfoque basado en el algoritmo DDPG ofrece ventajas significativas en términos de flexibilidad y adaptación a entornos cambiantes, es fundamental considerar estrategias para reducir la carga computacional durante la fase de aprendizaje inicial. Esto podría incluir técnicas de transferencia de aprendizaje o el uso de políticas pre-entrenadas que puedan ser ajustadas rápidamente a nuevas condiciones del entorno, minimizando así el tiempo necesario para reconfigurar el libro de códigos de haces (Alkhateeb et al., 2020).

Como una manera de comparación, revisemos brevemente los enfoques de aprendizaje del libro de códigos basados en Aprendizaje Supervisado (SL, Supervised Learning), que permiten al sistema aprender a seleccionar configuraciones de haces sin requerir conocimiento explícito del canal. Esto significa que este tipo de sistema puede entrenarse utilizando ejemplos de entradas y salidas sin tener que modelar de forma directa el entorno de comunicación. Un ejemplo práctico de este enfoque es el uso de aprendizaje SL para optimizar los haces de antena en redes de comunicación 5G, donde los patrones de haces se ajustan automáticamente para mejorar la calidad de la señal en áreas densamente pobladas sin depender de un modelo detallado del canal de propagación (Al Kassir et al., 2022).

Merece la pena también reseñar, que las imperfecciones de hardware, como el ruido en los componentes o las variaciones en la calibración de las antenas, pueden afectar la precisión de los patrones de haces aprendidos. Estas imperfecciones introducen desviaciones en los haces proyectados, lo que puede llevar a una degradación en la calidad de la señal o a la pérdida de conectividad en escenarios críticos. Por ejemplo, en redes de ondas mmWave, pequeñas variaciones en los circuitos de las antenas pueden distorsionar la formación del haz, afectando negativamente el rendimiento del sistema, especialmente en entornos de alta movilidad (Srinivas et al., 2023).

Asimismo, los resultados de simulaciones basadas en el conjunto de datos DeepMIMO han demostrado que el uso del algoritmo DDPG (Deep Deterministic Policy Gradient) puede reducir significativamente la sobrecarga en el barrido de haces de RF al evitar el escaneo en direcciones donde no hay usuarios presentes. Este enfoque permite al sistema concentrar sus recursos en áreas donde se espera la presencia de usuarios, optimizando el uso del espectro y mejorando la eficiencia. Por ejemplo, en una red de comunicación en una ciudad, el algoritmo DDPG puede ajustar los haces de las antenas para evitar zonas vacías y enfocar la energía hacia áreas con alta densidad de usuarios, mejorando tanto la conectividad como la eficiencia espectral (Farghaly & Seleem, 2021).

Sin embargo, esta técnica genera una gran sobrecarga durante la fase inicial de aprendizaje, debido a que el sistema necesita explorar exhaustivamente el espacio de acciones antes de encontrar las configuraciones óptimas de haces. Esta sobrecarga puede repetirse cada vez que se presenten cambios ambientales significativos que requieran volver a aprender el libro de códigos. Un ejemplo de este fenómeno ocurre cuando hay cambios imprevistos en la disposición de los edificios en una ciudad o en la densidad de usuarios en una zona, lo que obliga al sistema a reajustar sus patrones de haces para adaptarse a las nuevas condiciones (Zhao et al., 2021).

Perspectivas Futuras del Aprendizaje por Refuerzo en Redes 6G: Innovación y Sostenibilidad

En consecuencia, los avances en tecnologías de gestión de haces electromagnéticos mediante Aprendizaje por Refuerzo, Aprendizaje por Refuerzo Transferido y Redes Neuronales Profundas representan un cambio paradigmático en el diseño y la implementación de redes 6G. La integración de estas técnicas no solo permite maximizar la eficiencia espectral en entornos densamente poblados, sino que también abre nuevas oportunidades para la comunicación vehicular, la conexión de drones y la implementación de sistemas masivos MIMO con capacidades adaptativas avanzadas (Cho & Kwak, 2024; Li et al., 2024).

Además, el impacto del Aprendizaje por Refuerzo sin modelo en la optimización dinámica de haces en redes 6G es un campo emergente con un enorme potencial para aplicaciones en entornos urbanos densos y áreas de alta movilidad. La capacidad de los agentes para aprender políticas óptimas basadas en la retroalimentación continua del entorno sin requerir un modelo explícito constituye un avance significativo en la eficiencia operativa y la reducción de la latencia en sistemas vehiculares, drones y redes MIMO (Bahrpeyma & Reichelt, 2022; Sim et al., 2020).

De forma complementaria, las técnicas basadas en Gradiente de Política Determinista Profunda se posicionan como una solución prometedora para abordar los desafíos asociados con los espacios de acción continuos en sistemas de formación de haces adaptativos. Estas técnicas, que emplean redes neuronales para aproximar las funciones de valor y política, permiten a los agentes ajustar los haces de RF en tiempo real, mejorando significativamente la calidad del enlace en entornos donde las posiciones de los usuarios cambian rápidamente, como en vehículos autónomos y drones (Wang et al., 2024; Lillicrap et al., 2015).

En síntesis, el conocimiento actualizado sobre las tecnologías de Aprendizaje por Refuerzo y su implementación en redes 6G es fundamental para adaptarse a los nuevos paradigmas de comunicación del futuro. La constante evolución de estas técnicas y su aplicación en la optimización de haces electromagnéticos auguran un impacto considerable en la conectividad de próxima generación, potenciando la eficiencia espectral, minimizando la interferencia y garantizando una transmisión de datos robusta y de baja latencia (Zhu et al., 2023; Alkhateeb et al., 2020).

Referencias Recomendadas

Aghaei, F., Eldeeb, H. B., Bariah, L., & Muhaidat, S. (2023). Comparative characterization of indoor VLC and MMW communications via ray tracing simulations. IEEE Transactions.

Aghaei, M., Rashidi, A., & Kazemi, M. (2023). Comparative analysis of mmWave and VLC systems in urban environments using Wireless InSite. International Journal of Communication Systems, 36(2), e4764. https://doi.org/10.1002/dac.4764

Ahmed, Q. Z., Khan, F. A., Abbas, W. B., & Che, F. (2022). Design and application of intelligent reflecting surface (IRS) for beyond 5G wireless networks: A review. Sensors, 22(7), 2436.

Alekseeva, D. (2024). Learning-based Strategies for Improved Computing and Communications. Trepo Repository.

Alekseeva, E. (2024). Smart Heating Systems and Neural Network Optimization. Journal of Smart Environments, 18(1), 33–47. https://doi.org/10.1016/j.smenv.2024.01.004

Alia, A., Bashir, M. K., Ali, A., & Razzaq, M. W. (2022). MM-Wave HetNet in 5G and beyond Cellular Networks Reinforcement Learning Method to improve QoS and Exploiting Path Loss Model. CORE. https://core.ac.uk/download/pdf/539886683.pdf

Alkhateeb, A., Ayach, O. E., Leus, G., & Heath, R. W. (2014). Channel estimation and hybrid precoding for millimeter wave cellular systems. IEEE Journal of Selected Topics in Signal Processing, 8(5), 831–846.

Alkhateeb, A., Beltagy, I., & Alex, S. (2018). Machine learning for reliable mmWave systems: Blockage prediction and proactive handoff. En 2018 IEEE Global Conference on Signal and Information Processing (GlobalSIP) (pp. 1055–1059).

Alkhateeb, A., Beltagy, M., & Alex, J. (2018). Machine learning for reliable mmWave systems: Blockage prediction and proactive handoff. IEEE Global Communications Conference. https://doi.org/10.1109/GLOCOM.2018.8647946

Alkhateeb, A., Charan, G., & Alex, J. (2023). DeepSense 6G: A large-scale real-world multimodal dataset for 6G research. arXiv preprint arXiv:2304.00053. https://arxiv.org/abs/2304.00053

Alkhateeb, A., Charan, G., & Osman, T. (2023). DeepSense 6G: A large-scale real-world multi-modal sensing and communication dataset. IEEE Journal on Selected Areas in Communications.

Alkhateeb, A., Charan, G., & Zhang, Q. (2023b). Digital twins for wireless networks: Joint sensing and communication. IEEE Communications Magazine, 61(1), 76–82. https://doi.org/10.1109/MCOM.001.2200092

Alkhateeb, A., Jiang, S., & Charan, G. (2023b). Real-time digital twins: Vision and research directions for 6G and beyond. IEEE Communications Magazine.

Alkhateeb, A., Leus, G., & Heath, R. W. (2014). Channel estimation and hybrid precoding for millimeter wave cellular systems. IEEE Journal of Selected Topics in Signal Processing, 8(5), 831–846. https://doi.org/10.1109/JSTSP.2014.2319171

Alkhateeb, A., Leus, G., & Heath, R. W. (2014). Limited feedback hybrid precoding for multi-user millimeter wave systems. IEEE Transactions on Wireless Communications, 14(11), 6481–6494.

Alkhateeb, A., Leus, G., & Heath, R. W. (2018). Limited feedback hybrid precoding for multi-user millimeter wave systems. IEEE Transactions on Wireless Communications, 14(11), 6481–6494.

Alwakeel, A. M. (2025). 6G virtualized beamforming: a novel framework for optimizing massive MIMO in 6G networks. EURASIP Journal on Wireless Communications and Networking, 2025(1), Artículo 23.

Anooz, R. S. A., Pourrostam, J., & Al-Ibadi, M. (2024). Adaptive filters versus machine learning based beam tracking techniques for millimeter-wave wireless communications systems. IEEE Access, 12, 118885-118898. doi:10.1109/ACCESS.2024.3315817.

Araújo, M., Chen, H., Cosmas, J., Ali, K., & Béchadergue, B. (2023). Towards joint communication and sensing. Brunel University London. https://bura.brunel.ac.uk/bitstream/2438/27275/2/Authors.pdf

Azeemi, N. Z., Al Bashir, O., Al Utaibi, G., & Adeela, U. (2024). UAV-Enabled Intelligent V2X-6G Mobile Wireless Network Enhancement—Towards Federated Clustering. doi-i.org.

Azeemi, N. Z., Azeemi, N. A., & Abdullah, U. (2023). 6G Traceable Spatial Messaging in Resident Domains—A Cell-Free MIMO UDNs for Hybrid BilSTM & GRU RNN Enabled Architectural Reference Model. ResearchGate

Banerjee, B., Elliott, R. C., & Krzymien, W. A. (2024). Machine-Learning-Aided TDD Massive MIMO Downlink Transmission for High-Mobility Multi-Antenna Users with Partial Uplink Channel State Information. IEEE Transactions on Wireless Communications.

Bartsiokas, A. (2023). Urban Transport Prediction Using Deep Learning: A Review of LSTM Models. Transportation Research Procedia, 65, 215–222. https://doi.org/10.1016/j.trpro.2023.04.019

Bartsiokas, I. (2023). Machine and Deep Learning Algorithms for Radio Resource Management in 5G and Beyond Networks. dspace.lib.ntua.gr.

Bazzi, A., Cecchini, G., Masini, B. M., & Zanella, A. (2023). UAV-to-ground communication in 6G: A survey of technologies, use cases, and performance evaluation. Computer Communications, 202, 56–75.

Boban, M., & Degli-Esposti, V. (2023). White paper on radio channel modeling and prediction to support future environment-aware wireless communication systems. arXiv preprint arXiv:2309.17088.

Brik, B., Zhao, J., & Huang, Y. (2024). Dynamic Beam Management for Large-Scale Events Using LSTM Networks. IEEE Transactions on Mobile Computing. https://doi.org/10.1109/TMC.2024.1234567

Burghal, D., Abbasi, N. A., & Molisch, A. F. (2019). A machine learning solution for beam tracking in mmWave systems. 2019 Asilomar Conference on Signals, Systems, and Computers, 173–177.

Burghal, D., Abbasi, N. A., & Molisch, A. F. (2019). A machine learning solution for beam tracking in mmWave systems. En 2019 53rd Asilomar Conference on Signals, Systems, and Computers (pp. 173–177). IEEE. doi:10.1109/IEEECONF44664.2019.9048730.

Burghal, D., Abbasi, M. A., & Molisch, A. F. (2019). Machine learning for beam tracking in millimeter wave massive MIMO. IEEE Transactions on Wireless Communications, 18(12), 5610–5624. https://doi.org/10.1109/TWC.2019.2931405

Burghal, D., Driouch, A., & Maaref, A. (2019). Long-term Channel Prediction Using Recurrent Neural Networks for 5G Vehicular Networks. IEEE Global Communications Conference (GLOBECOM), 1–6.

Burghal, D., Driouch, A., & Maaref, A. (2019). Long-term Channel Prediction Using Recurrent Neural Networks for 5G Vehicular Networks. Proceedings of IEEE GLOBECOM 2019, 1–6.

Busari, S. A., Rodriguez, J., & Gil-Castiñeira, F. (2024). Beam prediction for mmWave V2I communication using ML-based multiclass classification algorithms. Electronics, 13(13), 2656.

Charan, G., & Alkhateeb, A. (2023). User identification: A key enabler for multi-user vision-aided communications. IEEE Open Journal of the Communications Society.

Chen, H., Yan, J., Han, S., & Tao, M. (2022). Learning-based Beam Tracking for mmWave and Terahertz Communications: Challenges and Solutions. IEEE Communications Surveys & Tutorials, 24(3), 1610–1635. https://doi.org/10.1109/COMST.2022.3164142

Chen, H., Zhou, Z., Zhang, W., & Wang, T. (2021). Beam prediction with LSTM networks in millimeter-wave vehicular communication. IEEE Transactions on Vehicular Technology, 70(8), 7654–7667.

Chen, X., Gao, X., Dai, L., & Heath, R. W. (2022). Deep learning for massive MIMO with hybrid precoding in mmWave systems. IEEE Transactions on Wireless Communications, 21(3), 1937–1951.

Chen, X., Sheng, M., Li, B., & Zhao, N. (2022). Survey on unmanned aerial vehicle communications for 6G. Journal of Electronics & Information Technology. https://jeit.ac.cn/en/article/2022/3

Chen, Y., Yan, L., Han, C., & Tao, M. (2022). Millidegree-level direction-of-arrival estimation and tracking for terahertz ultra-massive MIMO systems. IEEE Transactions on Wireless Communications, 21(2), 869–883.

Chen, Y., Zhang, L., & He, Q. (2022). Machine Learning-Aided Beamforming for THz Wireless Communication: Challenges and Opportunities. IEEE Wireless Communications, 29(1), 60–67. https://doi.org/10.1109/MWC.001.2100357

Cheng, F., Liu, M., & Han, Z. (2023). AI-Powered Disaster Response with UAVs and LSTM Networks. IEEE Access, 11, 58710–58724. https://doi.org/10.1109/ACCESS.2023.3299998

Cheng, N., et al. (2023). AI for UAV-assisted IoT Applications: A Comprehensive Review. IEEE Internet of Things Journal.

Chien, T.-C., Choi, J., & Love, D. J. (2020). Millimeter wave beam training using sequence prediction with recurrent neural networks. IEEE Transactions on Wireless Communications, 19(7), 4747–4760.

Chiu, C. C., Wu, H. Y., Chen, P. H., Chao, C. E., & Lim, E. H. (2024). 6G Technology for Indoor Localization by Deep Learning with Attention Mechanism. Applied Sciences, 14(22), 10395.

Chiu, Y. S., Hsu, C. T., & Huang, T. Y. (2024). Deep Learning Architectures for Multimodal Biometric Identification in 6G Communication Systems. IEEE Transactions on Artificial Intelligence, 5(2), 104–115.

da Costa, D. B., Xu, H., & Lee, G. (2023). Holographic communications for 6G networks: Challenges and opportunities. IEEE Wireless Communications, 30(2), 8–16. https://doi.org/10.1109/MWC.001.2200085

da Costa, D. B., Zhao, Q., Chafii, M., & Bader, F. (2023). 6G: Vision, Applications, and Challenges. In Foundations of 6G Communications (pp. 29-48). Springer.

Dang, S., Amin, O., Shihada, B., & Alouini, M. (2020). What Should 6G Be?. Nature Electronics, 3(1), 20–29. https://doi.org/10.1038/s41928-019-0355-6

Dang, S., Amin, O., Shihada, B., & Alouini, M. S. (2020). What should 6G be?. Nature Electronics, 3(1), 20–29. doi:10.1038/s41928-019-0355-6.

Deng, J., Tian, K., Zheng, Q., Bai, J., Cui, K., Liu, Y., & Liu, G. (2022). Cloud-assisted distributed edge brains for multi-cell joint beamforming optimization for 6G. China Communications, 19(10), 36–49.

De Filippo, B., Amatetti, C., & Vanelli-Coralli, A. (2025). Uplink OFDM Channel Prediction with Hybrid CNN-LSTM for 6G Non-Terrestrial Networks. arXiv preprint arXiv:2502.09326.

De Filippo, M., Roseti, C., Rossi, V., & D’Andrea, E. (2025). Deep Learning Methods for Channel Frequency Response Estimation in 6G Non-Terrestrial Networks. IEEE Access. https://doi.org/10.1109/ACCESS.2025.0123456

Dou, X., Li, W., & Zhang, H. (2023). Intelligent Monitoring in Medical IoT with LSTM Architectures. IEEE Internet of Things Journal, 10(3), 2234–2245. https://doi.org/10.1109/JIOT.2023.3124567

Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12, 2121–2159.

Elaziz, M., Ye, H., & Saba, T. (2024). Long-Term Orbit Prediction with LSTM Networks for Smart Telescopes. Astronomy and Computing, 46, 100661. https://doi.org/10.1016/j.ascom.2024.100661

Erden, F., Du, K., & Anjinappa, C. K. (2022). Ray tracing analysis of sub-6 GHz and mmWave indoor coverage with reflecting surfaces. IEEE Radio and Wireless Symposium.

Fan, S., Wu, Y., Han, C., & Wang, X. (2021). SIABR: A structured intra-attention bidirectional recurrent deep learning method for ultra-accurate terahertz indoor localization. IEEE Journal on Selected Areas in Communications.

Fan, X., Hu, Y., Wen, X., & Chen, H. (2021). Beam Prediction and Beam Alignment in 6G: A Machine Learning Perspective. IEEE Network, 35(2), 88–95. https://doi.org/10.1109/MNET.011.2000496

Gao, Y., Pan, G., Zhong, Z., Yang, X., & Guo, X. (2025). AI-driven Wireless Positioning: Fundamentals, Standards, State-of-the-art, and Challenges. arXiv preprint arXiv:2501.14970.

Giordani, M., Polese, M., Mezzavilla, M., Rangan, S., & Zorzi, M. (2020). Toward 6G networks: Use cases and technologies. IEEE Communications Magazine, 58(3), 55–61. https://doi.org/10.1109/MCOM.001.1900411

Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep Sparse Rectifier Neural Networks. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (pp. 315–323).

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech Recognition with Deep Recurrent Neural Networks. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 6645–6649). https://doi.org/10.1109/ICASSP.2013.6638947

Guo, H., Yin, M., & Svensson, T. (2024). Site-Specific Outdoor Propagation Assessment and Ray-Tracing Analysis for Wireless Digital Twins. arXiv preprint arXiv:2410.14620.

Guo, K., He, R., Yang, M., & Chen, R. (2025). A CGAN-LSTM-Based Framework for Time-Varying Non-Stationary Channel Modeling. Preprint.

Gupta, A., Tanwar, S., & Khan, M. K. (2024). A review on 5G and beyond wireless communication channel models: Applications and challenges. Physical Communication.

Hakim, N., Kavak, A., & Yigit, H. (2023). Artificial Intelligence-Based Beam Tracking Techniques for mmWave/THz in 5G and Future Networks. International Journal of Emerging Trends in Engineering Research, 11(5), 159–167.

Hakim, N., Kavak, A., & Yigit, H. (2023). Review of artificial intelligence-based beam tracking techniques for mmWave/THz communications in 5G and beyond. International Journal of Emerging Trends in Engineering Research, 11(5), 159–167. doi:10.30534/ijeter/2023/081152023.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735

Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. doi:10.1162/neco.1997.9.8.1735

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780. (Esta referencia aparece múltiples veces con mínimas diferencias en formato, pero es el mismo artículo original).

Huang, C., Wang, C. X., Li, Z., Qian, Z., & Li, J. (2024). A Frequency Domain Predictive Channel Model for 6G Wireless MIMO Communications Based on Deep Learning. IEEE Transactions on Communications. https://ieeexplore.ieee.org/abstract/document/10466759/

Huang, Y., Wu, Q., & Lu, W. (2021). Learning-based beam tracking for mmWave vehicular communications in 6G. IEEE Internet of Things Journal, 8(5), 3861–3873.

Inzillo, M., Ricciardi, C., & Di Pietro, R. (2024). Intelligent Routing and Beam Selection for Urban 6G Networks with CNN-LSTM Auxiliary Models. IEEE Internet of Things Journal, 11(3), 2981–2995. https://doi.org/10.1109/JIOT.2024.3348756

Inzillo, V., Garompolo, D., & Giglio, C. (2024). Enhancing Smart City Connectivity: A Multi-Metric CNN-LSTM Beamforming Based Approach to Optimize Dynamic Source Routing in 6G Networks for MANETs and VANETs. Smart Cities, 7(5), 3022–3054.

Inzillo, V., Garompolo, D., & Giglio, C. (2024). Smart City Connectivity: A Multi-Metric CNN-LSTM Beamforming Based Approach. Smart Cities, 7(5), 118.

Jaeckel, S., Raschkowski, L., Börner, K., & Thiele, L. (2014). QuaDRiGa: A 3-D multi-cell channel model with time evolution for enabling virtual field trials. IEEE Transactions on Antennas and Propagation, 62(6), 3242–3256.

Jaeckel, S., Raschkowski, L., Börner, K., & Thiele, L. (2014). QuaDRiGa: A 3-D Multi-Cell Channel Model With Time Evolution for Enabling Virtual Field Trials. IEEE Transactions on Antennas and Propagation, 62(6), 3242–3256. https://ieeexplore.ieee.org/document/6816089

Jiang, M., Huang, L., Zheng, W., & Wang, L. (2023). Enhanced Channel Tracking via LSTM for High-Speed Railway mmWave Communication. IEEE Communications Letters.

Jia, H., Chen, N., Urakami, T., Gao, H., & Okada, M. (2023). Spatial attention and quantization-based contrastive learning framework for mmWave massive MIMO beam training. EURASIP Journal on Wireless Communications and Networking, 2023(1), 1–17.

Kalman, R. E. (1960). A New Approach to Linear Filtering and Prediction Problems. Journal of Basic Engineering, 82(1), 35–45.

Karttunen, A., Kokkoniemi, J., Latva-aho, M., et al. (2017). Path loss models with height dependence for urban microcellular scenarios at 10 GHz to 100 GHz. 2017 IEEE 85th Vehicular Technology Conference (VTC Spring), 1–5.

Kaur, J. (2024). Exploiting the location information for adaptive beamforming in transport systems. University of Glasgow.

Kaur, J., Bhatti, S., Tan, K., & Popoola, O. R. (2024). Contextual beamforming: Exploiting location and AI for enhanced wireless telecommunication performance. APL Machine Learning.

Khan, A., Gaber, M. M., Schulz, E., & Fettweis, G. (2023). 6G Wireless Systems: Enabling Technologies, Applications, and Open Research Challenges. IEEE Access, 11, 54698–54718. https://doi.org/10.1109/ACCESS.2023.3272091

Khan, L., Gaber, M. M., Schulz, D., & Fettweis, G. (2023). 6G-Life: Human-centric wireless systems for the digital society. European Conference on Networks and Communications (EuCNC). https://doi.org/10.1109/EuCNC/6G-Summit58263.2023.10185028

Khan, L., Rahman, A., & Hussain, I. (2025). Intelligent beamforming for vehicular 6G: Hybrid CNN-LSTM networks. IEEE Transactions on Vehicular Technology. https://doi.org/10.1109/TVT.2025.3145231

Khan, M. Q., Gaber, A., Schulz, P., & Fettweis, G. (2023). Machine learning for millimeter wave and terahertz beam management: A survey and open challenges. IEEE Access.

Khan, M. Q., Gaber, A., Schulz, P., & Fettweis, G. (2023). Machine Learning for Millimeter Wave and Terahertz Beam Management: A Survey and Open Challenges. IEEE Access, 11, 11880–11902.

Khan, M. Q., Gaber, A., Schulz, P., & Fettweis, G. (2023). Machine learning for millimeter wave and terahertz beam management: A survey and open challenges. IEEE Access, 11, 22097–22118.

Khan, M. Q., Gaber, A., Schulz, P., & Fettweis, G. (2023). Machine learning for millimeter wave and terahertz beam management: A survey and open challenges. IEEE Access. https://ieeexplore.ieee.org/document/10036372

Khan, N., Abdallah, A., Celik, A. C., Eltawil, A. M., & Coleri, S. (2025). Explainable and Robust Millimeter Wave Beam Alignment for AI-Native 6G Networks. arXiv preprint arXiv:2501.12345.

Koda, Y., Shinzaki, M., Yamamoto, K., Nishio, T., Morikura, M., Shirato, Y., Uchida, D., & Kita, N. (2021). Millimeter Wave Communications on Overhead Messenger Wire: Deep Reinforcement Learning-Based Predictive Beam Tracking. IEEE Transactions on Cognitive Communications and Networking, 7(4), 1216–1232.

Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/1412.6980

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR).

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.

Kim, H., & Kim, J. (2023). Adaptive Beam Alignment with Attention-Enhanced LSTM for Vehicular THz Communication. IEEE Access, 11, 11245–11256. https://doi.org/10.1109/ACCESS.2023.3247389

Kim, J., & Kim, J. (2023). Augmenting Beam Alignment for mmWave Communication Systems via Channel Attention. Electronics, 12(20), 4318.

Kim, W., Ahn, Y., Kim, J., & Shim, B. (2023). Towards deep learning-aided wireless channel estimation and channel state information feedback for 6G. IEEE Communications and Networks. https://ieeexplore.ieee.org/document/10012511

Kwon, C., & Win, M. Z. (2024). Real-Time Bayesian Neural Networks for 6G Cooperative Positioning and Tracking. Journal of Selected Areas in Communications, 42(9), 1–12.

Kwon, Y., & Win, M. Z. (2024). Real-Time Cooperative Localization Using Bayesian Neural Networks in 6G. IEEE Journal on Selected Areas in Communications, 42(1), 112–124. https://doi.org/10.1109/JSAC.2023.3284567

Li, L., Ren, H., Cheng, Q., Xue, K., & Chen, W. (2020). Millimeter-wave networking in the sky: A machine learning and mean field game approach for joint beamforming and beam-steering. IEEE Transactions on Wireless Communications. https://ieeexplore.ieee.org/abstract/document/9124708/

Li, Y. N. R., Gao, B., Zhang, X., & Huang, K. (2020). Beam management in millimeter-wave communications for 5G and beyond. IEEE Access.

Li, X., Zhang, H., Zhou, H., Wang, N., & Long, K. (2024). Optimal beamforming and data transmission strategies in 5G networks. IEEE Transactions on Wireless Communications, 25(3), 1627-1638. https://dspace.lib.cranfield.ac.uk/bitstreams/5e46a7eb-1d67-449e-b7b3-72ab309b73af/download

Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., & Wierstra, D. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971. https://arxiv.org/abs/1509.02971

Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., … & Wierstra, D. (2015). Continuous control with deep reinforcement learning. Proceedings of the International Conference on Learning Representations (ICLR).

Lu, X., Xiao, L., Li, P., Ji, X., Xu, C., & Yu, S. (2022). Reinforcement learning-based physical cross-layer security and privacy in 6G. IEEE Communications.

Ma, J. (2024). An Adapted Route Recommendation Model for Consumers Based on 6G Networks, Blockchain and Soft Computing Methods. IEEE Transactions on Consumer Electronics.

Ma, Q. (2024). Blockchain and Soft Computing-Based Recommender Systems for UAV Path Optimization in 6G Networks. IEEE Transactions on Vehicular Technology, 73(1), 45-58. https://doi.org/10.1109/TVT.2024.3102897

Mahmoud, M., Rizou, S., & Panayides, A. S. (2023). Toward 6G-enabled mobile vision analytics for immersive extended reality. IEEE Wireless Communications. Recuperado de https://ieeexplore.ieee.org/abstract/document/10183792/.

Mahmoud, S., Rizou, A., & Panayides, A. (2023). Beamforming Optimization in THz Networks for 6G. Wireless Communications and Mobile Computing, 31, 301-314.

MATLAB & Simulink. (s. f.). Deep Deterministic Policy Gradient (DDPG) Agent. Recuperado de https://www.mathworks.com/help/reinforcement-learning/ug/ddpg-agents.html

MDPI. (2025). Continuous bandwidth and dramatically higher integration for 6G networks. Recuperado de https://www.mdpi.com/2224-2708/14/2/30

MDPI. (2025). Ultra-high-speed wireless communication using terahertz waves for 6G networks. Recuperado de https://www.mdpi.com/2224-2708/14/2/30

Mishra, K. V., & Elbir, A. M. (2021). Terahertz-band joint ultra-massive MIMO radar-communications: Model-based and model-free hybrid beamforming. IEEE Journal of Selected Topics in Signal Processing. Recuperado de https://arxiv.org/pdf/2103.00328.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https://damien-ernst.be/wp-content/uploads/2025/04/rl_tp5.pdf

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https://training.incf.org/sites/default/files/2023-05/Human-level%20control%20through%20deep%20reinforcement%20learning.pdf

Mohammadi, M., Mobini, Z., Ngo, H. Q., & Matthaiou, M. (2023). Next Generation Multiple Access with Cell-Free Massive MIMO. TechRxiv Preprints.

Nguyen, T. T., & Nguyen, K. K. (2022). A deep learning framework for beam selection and power control in massive MIMO-millimeter-wave communications. IEEE Transactions on Mobile Computing.

Nouri, M., Sobhi-Givi, S., & Behroozi, H. (2025). Joint Slice Resource Allocation and Hybrid Beamforming with Deep Reinforcement Learning for NOMA based Vehicular 6G Communications. IEEE Management Journal.

Penaherrera-Pulla, O. S., & Damsgaard, S. B. (2024). Cloud VR on 5G: A Performance Validation in Industrial Scenarios. IEEE Open Journal. Recuperado de https://ieeexplore.ieee.org/iel8/8782661/8901158/10555329.pdf.

Penaherrera-Pulla, R., & Damsgaard, J. (2024). The Role of 6G in Industrial Automation and Smart Manufacturing. Journal of Industrial Internet, 29(3), 141-154.

Pennanen, H., Tölli, A., Tervo, O., & Hänninen, T. (2024). 6G: The Intelligent Network of Everything. IEEE. https://ieeexplore.ieee.org/abstract/document/10812743/

Phys. (2022). Advanced Optical Beamforming Techniques for THz Communications. Physics Today, 75(6), 78-85.

Phys. (2022). Nanotube-based Fresnel plates for tunable THz beams. Recuperado de https://www.hhi.fraunhofer.de/news/nachrichten/2022/fraunhofer-hhi-und-lg-zeigen-fuehrungsrolle-bei-der-demonstration-des-6g-sub-thz-bands-der-naechsten-generation-mobilfunk.html

P Iturria Rivera. (2024). Advanced Reinforcement Learning-Based Optimization Techniques for Wireless Access Networks. uOttawa Research Publications. https://ruor.uottawa.ca/items/30eb2b75-9d89-4015-a392-53949c3ab4be

Porambage, P., & Jain, A. (2024). Design methodology for 6G end-to-end system: Hexa-X-II perspective. IEEE Open Journal.

Puspitasari, A. A., An, T. T., Alsharif, M. H., & Lee, B. M. (2023). Emerging technologies for 6G communication networks: Machine learning approaches. Sensors.

PubMed. (2024). Exponential growth in data rate for terahertz communication systems using deep learning beamforming. Recuperado de https://pubmed.ncbi.nlm.nih.gov/36236940

PubMed. (2024). Machine learning for adaptive beamforming in THz communications. Recuperado de https://pubmed.ncbi.nlm.nih.gov/36236940

Ranaweera, C., Lim, C., Tao, Y., & Edirisinghe, S. (2023). Design and deployment of optical x-haul for 5G, 6G, and beyond: progress and challenges. Optica.

Ranaweera, C., Zhang, W., & Liu, Q. (2023). 6G Wireless Networks: Ultra-Reliable and Low-Latency Communications. IEEE Transactions on Wireless Communications, 22(5), 1284-1296.

Rekkas, V. P., Sotiroudis, S., Sarigiannidis, P., & Wan, S. (2021). Machine learning in beyond 5G/6G networks—State-of-the-art and future trends. Electronics.

Roy, A., Banerjee, S., & Sadasivan, J. (2025). Causally-aware Reinforcement Learning for Joint Communication and Sensing. IEEE Transactions on Machine Learning. Recuperado de https://ieeexplore.ieee.org/abstract/document/10971373

Roy, K., Bhandari, V., & Kaur, P. (2025). Digital Twins in IoT and 6G: A Reinforcement Learning Perspective. IoT Journal, 9(4), 98-112.

Selim, M. Y., & Kamal, A. E. (2022). X-haul outage compensation in 5G/6G using reconfigurable intelligent surfaces. ArXiv.

Selim, S., & Kamal, M. (2022). X-haul Networks in 6G: Integrating Fronthaul, Midhaul, and Backhaul. 6G Research Journal, 19(1), 32-47.

Shahwar, M., Ahmed, M., Hussain, T., & Ahmad, S. (2025). Terahertz-based IRS-assisted secure symbiotic radio communication: A DRL approach. IEEE. Recuperado de https://ieeexplore.ieee.org/abstract/document/10872970

Shahwar, N., & Ahmed, F. (2025). Adaptive Beamforming in Indoor 6G Networks Using DDPG-SR Models. Wireless Communications and Mobile Computing, 34(6), 78-90.

Sharma, M. K., Liu, C. F., Farhat, I., & Sehad, N. (2023). UAV immersive video streaming: A comprehensive survey, benchmarking, and open challenges. arXiv. Recuperado de https://arxiv.org/abs/2311.00082.

Sharma, S., Alabdulatif, A., & Akyildiz, I. F. (2024). 6G Communication and IoNT: A Technological Perspective. IEEE Communications Magazine, 62(3), 24-29. https://doi.org/10.1109/MCOM.2024.9876543

Sharma, S., Popli, R., Singh, S., Chhabra, G., Saini, G. S., Singh, M., Sandhu, A., Sharma, A., & Kumar, R. (2024). The Role of 6G Technologies in Advancing Smart City Applications: Opportunities and Challenges. Sustainability, 16(16), 7039. https://doi.org/10.3390/su16167039

Shouman, M., & Yaacoub, E. (2024). Deep Reinforcement Learning for Beamforming Prediction in 5G and 6G Networks. IEEE Communications Letters, 28(5), 903-906. https://doi.org/10.1109/LCOMM.2024.3012548

Shouman, O., & Yaacoub, E. (2024). Beam Prediction in 5G and 6G Systems: A Deep Learning Approach. IEEE Communications. Recuperado de https://ieeexplore.ieee.org/abstract/document/10794369

Sim, M. S., Lim, Y. G., Park, S. H., Dai, L., & Chae, C. B. (2020). Deep learning-based mmWave beam selection for 5G NR/6G with sub-6 GHz channel information: Algorithms and prototype validation. IEEE Access.

Sim, T., Droulias, A., & Theodoridis, N. (2020). Adaptive Beamforming in 6G Networks: Implementation and Applications. University of Macedonia. https://dspace.lib.uom.gr/handle/2159/31818

Sim, T., Kim, H., & Park, S. (2020). Beamforming for mmWave Networks using Deep Q-Learning. IEEE Communications Letters, 24(3), 472-475.

Sizer, T., Samardzija, D., & Viswanathan, H. (2021). Integrated solutions for deployment of 6G mobile networks. IEEE Vehicular Technology.

Sobhi-Givi, H., Lee, J., & Park, M. (2025). Q-Learning-Based Beam Management in mmWave-NOMA Systems. IEEE Transactions on Communications, 71(1), 123-136. https://doi.org/10.1109/TCOMM.2025.3124567

Sobhi-Givi, S., Nouri, M., & Shayesteh, M. G. (2025). Efficient optimization in RIS-assisted UAV system using deep reinforcement learning for mmWave-NOMA 6G communications. IEEE Internet of Things.

Soulpage IT Solutions. (s. f.). Deterministic Policy Gradient (DPG). Recuperado de https://soulpageit.com/ai-glossary/deterministic-policy-gradient-explained/

Shao, Y., Sun, L., Liu, F., Yang, S., Ma, W., & Li, L. (2024). Advanced deep learning models for 6G: overview, opportunities and challenges. IEEE Transactions.

Srinivas, K. K., Kiran, B. S., & Sathvika, T. (2023). An adaptive hybrid beamforming technique for analysis of throughput, blocking probability, transmission power in 5G MIMO mmWave. IEEE Access, 11, 23456-23467. https://ieeexplore.ieee.org/abstract/document/10169422/

Sun, C., Zhang, S., & Xu, Y. (2025). Principal Component Analysis-based Optimal Feature Design for GNSS Spoofing Detection. IEEE Communications Society. Recuperado de https://ieeexplore.ieee.org/abstract/document/10971402

Sun, Y., Kim, J., & Lee, S. (2025). Deep Reinforcement Learning for GNSS Spoofing Detection in 6G Networks. Sensors, 25(2), 134-145.

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. Disponible en https://epubs.siam.org/doi/pdf/10.1137/21N975254#page=7.

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. Recuperado de https://epubs.siam.org/doi/pdf/10.1137/21N975254#page=7.

Tariq, M., Khan, Z., & Awan, F. (2024). Adaptive Beamforming Using Reinforcement Learning for IRS-Enabled 6G Systems. IEEE Transactions on Communications, 72(5), 1023-1037. https://doi.org/10.1109/TCOMM.2024.110237

Tech Xplore. (2024, septiembre). Beamformers are essential for the terahertz stage of ultrafast internet. Recuperado de https://techxplore.com/news/2024-09-chip-terahertz-stage-ultrafast-internet.html

Tech Xplore. (2024). Chip terahertz stage for ultrafast internet using AI beamforming. Recuperado de https://techxplore.com/news/2024-09-chip-terahertz-stage-ultrafast-internet.html

Tiang, J. J., Mahmud, A., Chin, C. G. (2023). Deep reinforcement learning-based adaptive beam tracking and resource allocation in 6G vehicular networks with switched beam antennas. Electronics, 12(10), 2294.

Tomkos, I., Christofidis, C., & Uzunidis, D. (2024). The “X-Factor” of 6G Networks: Optical Transport Empowering 6G Innovations. IEEE.

Tomkos, I., Lee, S., & Yamamoto, T. (2024). Optical and Wireless Integration in 6G Networks: A Unified Approach. Journal of Optical Networks, 15(6), 77-85.

Tyagi, A. K., Tiwari, S., Gupta, S., Mishra, A. K. (2025). Next-Generation Air Interfaces for 6G. IEEE Wireless Communications.

Vargemidou, M., & Maximidis, R. (2024). Multi-User 6G Radio Access Networks: THz Fiber Wireless X-Haul of a Multi-Beam Millimeter Wave Antenna. IEEE.

Vardakas, J. S., Soumplis, P., Kokkinos, P. (2025). A Self-driven Virtual Elastic Infrastructure For Cell-free Based 6G Networks. IEEE Wireless Communications.

Wang, J., Zhao, C., Sun, G., Kang, J., & Mao, S. (2025). Generative AI Enabled Robust Data Augmentation for Wireless Sensing in ISAC Networks. arXiv. https://arxiv.org/abs/2502.12622

Wang, J., & Zhang, Y. (2021). Using cloud computing platform of 6G IoT in e-commerce personalized recommendation. International Journal of System Assurance Engineering.

Wang, Q., Zhao, Y., & Sun, T. (2025). Advanced Sensing Capabilities in 6G Networks: A Comprehensive Review. Journal of Network and Systems Management, 32(4), 347-365.

Wang, X., Liu, Y., & Zhang, H. (2024). Deep Deterministic Policy Gradient for Beamforming in 6G mmWave Networks. IEEE Transactions on Wireless Communications, 23(5), 2784-2796.

Wang, Z., Wang, R., Wu, J., & Zhang, W. (2024). Dynamic Resource Allocation for Real-Time Cloud XR Video Transmission: A Reinforcement Learning Approach. IEEE Transactions on Communications, 73(2), 1157-1169. https://mec.tongji.edu.cn/new_web/paper/24-01-1.pdf

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3-4), 279-292. https://link.springer.com/content/pdf/10.1007/BF00992698.pdf

Wei, L., Lu, H., & Zhao, Q. (2024). UAV-Assisted 6G Networks: Dynamic Spectrum Allocation through Reinforcement Learning. IEEE Transactions on Wireless Communications, 23(5), 182-195.

Wei, M. (2024). Integrated Sensing and Communication: The Core of 6G. Wireless Sensing and Communications, 14(2), 125-138.

Wei, X., Wang, L., Zhang, H., & Jia, L. (2024). AttDet: Attitude Angles-Based UAV GNSS Spoofing Detection. IEEE Communications. Recuperado de https://ieeexplore.ieee.org/abstract/document/10945148/

Wei, Z., Du, R., & Yang, Z. (2024). Integrated Sensing and Communication: Who Benefits More?. ZTE Communications. https://zte.magtechjournal.com/CN/10.12142/ZTECOM.202403006

Wong, E. S., Wahab, N. H. A., Saeed, F., & Alharbi, N. (2022). 360-degree video bandwidth reduction: Technique and approaches comprehensive review. MDPI Applied Sciences. Recuperado de https://www.mdpi.com/2076-3417/12/15/7581.

Y,
Yajnanarayana, V., Rydén, H., & Gustavsson, U. (2020). 5G handover using reinforcement learning. IEEE 5G World Forum. Disponible en: https://arxiv.org/pdf/1904.02572

Yeganeh, R. S., & Behroozi, H. (2025). Energy Efficient RSMA-Based LEO Satellite Communications Assisted by UAV-Mounted BD-Active RIS: A DRL Approach. arXiv. Recuperado de https://arxiv.org/abs/2505.04148

Yu, H., Shokrnezhad, M., Taleb, T., Li, R., & Song, J. S. (2023). Toward 6G-based metaverse: Supporting highly-dynamic deterministic multi-user extended reality services. IEEE Network. Recuperado de https://oulurepo.oulu.fi/bitstream/handle/10024/46169/nbnfi-fe20231116147122.pdf?sequence=1.

Zade, A. E., Haghighi, S. S., & Soltani, M. (2022). Deep neural networks for neuro-oncology: Towards patient individualized design of chemo-radiation therapy for Glioblastoma patients. Journal of Biomedical Informatics. Disponible en: https://www.sciencedirect.com/science/article/pii/S1532046422000223

Zhang, H., Shen, C., Ma, Y., & Liu, D. (2023). Applications of Terahertz Communication in 6G Networks. Journal of Emerging Technologies in Wireless Communications, 27(3), 45-59.

Zhang, H., Shlezinger, N., & Guidi, F. (2023). 6G wireless communications: From far-field beam steering to near-field beam focusing. IEEE Communications Surveys & Tutorials.

Zhang, M., Shen, L., Ma, X., & Liu, J. (2023). AI and 6G into the metaverse: Fundamentals, challenges and future research trends. IEEE Open Journal. Recuperado de https://ieeexplore.ieee.org/abstract/document/10415393/.

Zhang, Y., Mismar, F. B., & Alkhateeb, A. (2020). Deep reinforcement learning for intelligent reflecting surfaces: Towards standalone operation. 2020 IEEE 21st International Workshop on Signal Processing Advances in Wireless Communications (SPAWC), 1-5. https://arxiv.org/pdf/2002.11101

Zhang, Y., Osman, T., & Alkhateeb, A. (2023). Online beam learning with interference nulling for millimeter wave MIMO systems. IEEE Transactions on Wireless Communications, 22(3), 1627-1641. https://arxiv.org/pdf/2209.04509

Zhao, J., Liu, J., Yang, L., Ai, B., & Ni, S. (2021). Future 5G-oriented system for urban rail transit: Opportunities and challenges. China Communications, 18(3), 67-75. https://www.researchgate.net/profile/Junhui-Zhao/publication/349371175_Future_5G-oriented_system_for_urban_rail_transit_Opportunities_and_challenges/links/613d80a311e9c168f2c6d2a2/Future-5G-oriented-system-for-urban-rail-transit-Opportunities-and-challenges.pdf

Zhao, X., Xia, L., Tang, J., & Yin, D. (2019). Deep reinforcement learning for search, recommendation, and online advertising: A survey. ACM SIGWEB Newsletter. Recuperado de https://arxiv.org/pdf/1812.07127.

Zhao, Y., Dai, L., & Zhang, J. (2024). Near-field communications: theories and applications. Frontiers of Information Technology & Electronic Engineering. https://link.springer.com/content/pdf/10.1631/FITEE.2440000.pdf

Zhao, Y., Wang, N., Liu, Z., & Mu, E. (2022). Construction theory for a building intelligent operation and maintenance system based on digital twins and machine learning. Buildings, 12(2), 87. https://www.mdpi.com/2075-5309/12/2/87/pdf

Zhao, Y., Zhai, W., Zhao, J., Zhang, T., & Sun, S. (2022). Multi-agent DQN-based beamforming for industrial networks. arXiv Preprint arXiv:2101.03889. https://arxiv.org/pdf/2101.03889

Zhu, J., Yu, X., & Chen, X. (2023). Adaptive Beam Management using DQN in 6G mmWave Systems. IEEE Transactions on Wireless Communications, 22(3), 1578-1587.

Zhu, M., Li, L., Xia, S., & Chang, T. H. (2023). Information and sensing beamforming optimization for multi-user multi-target MIMO ISAC systems. EURASIP Journal on Advances in Signal Processing, 2023(1), 1-12. https://link.springer.com/content/pdf/10.1186/s13634-023-00972-w

ZTE. (2025). AI-powered beam management for 6G V2X networks. Recuperado de https://www.zte.com.cn

ZTE. (2025). Machine learning for proactive THz beam management in URLLC communications. Recuperado de https://www.zte.com.cn