Novel efficient deep learning architectures for time series forecasting

Jiménez Navarro, Manuel Jesús

Novel efficient deep learning architectures for time series forecasting

Jiménez Navarro, Manuel Jesús

Dirigida por:

María del Mar Martínez Ballesteros Director/a
Gualberto Asencio Cortés Director

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 03 de febrero de 2023

Tipo: Tesis

DIALNET Idus editor

Resumen

La presente tesis se centra en el estudio de la predicción de series temporales mediante el uso de la técnica conocida como deep learning (aprendizaje profundo en español) o redes neuronales. A su vez, se realizan una serie de nuevas propuestas metodológicas, que mejoran la eficiencia de las arquitecturas existentes, aplicadas a una serie de conjunto de datos reales que presenta un reto en la sociedad actual. La técnica conocida como deep learning ha adquirido gran popularidad en los últimos años debido a sus increíbles resultados en áreas como la visión artificial, procesamiento del lenguaje natural y predicción de series temporales, entre otras. Esta técnica se inspira en el funcionamiento de la célula básica del cerebro, la neurona. Las neuronas se organizan en capas formando una red neuronal, procesando la información de entrada y propagando su salida hacia otras capas de neuronas hasta obtener la salida final. Esta técnica ha sido adaptada en múltiples ocasiones a la predicción de series temporales desarrollando arquitecturas con unos resultados con resultados competitivos con el estado del arte actual. Sin embargo, aunque la eficacia ha sido un gran punto a favor, en ocasiones estas arquitecturas han degradado su eficiencia impidiendo su aplicación en escenarios reales. Existen diversas formas de mejorar la eficiencia, reduciendo algunos de los aspectos que toman gran cantidad de recursos como: memoria necesaria para almacenar la arquitectura, tiempo de inferencia o tiempo de entrenamiento, entre otros. Esta tesis se centra en mejorar el tiempo de entrenamiento, pues, resulta el cuello de botella a la hora de experimentar con nuevas arquitecturas, optimizar las arquitecturas existentes o reentrenar arquitecturas en ciertos escenarios reales. Ante el problema de eficiencia que presentan las arquitecturas dentro del ámbito del deep learning o las redes neuronales, se han desarrollado cuatro propuestas diferentes con el objetivo de obtener una eficacia igual o superior que otras arquitecturas de la literatura requiriendo una menor cantidad de recursos computacionales. La primera de las propuestas introduce dentro del diseño de la arquitectura la idea de un aprendizaje incremental. Esta idea establece diferentes objetivos a las capas de la red neuronal, estableciendo al principio un objetivo muy sencillo e incrementando la dificultad del objetivo asignado a las capas. De esta manera, se acelera el proceso de aprendizaje al ser capaz de aprender rápidamente los conceptos necesarios para el objetivo más sencillo y propagar este conocimiento a las capas posteriores. La segunda propuesta parte de la primera propuesta y establece una hipótesis adicional. En lugar de que los diferentes objetivos se optimicen sin que los más complejos puedan influir en los más sencillos, se permite que exista influencia. De esta manera, el conocimiento adquirido de los objetivos más sencillos puede ser modificado parcialmente por los subsiguientes objetivos más complejos. La tercera propuesta surge como idea de las dos primeras propuestas. En este caso la idea fundamental es similar, separar la responsabilidad del proceso de predicción. En esta propuesta se separa la responsabilidad descomponiendo la serie temporal usando un proceso de suavizado. La primera capa, por lo tanto, recibe la entrada suavizada y es encargada de obtener una predicción parcial. La siguiente capa recibe el “residuo” resultante de restar la versión original a la versión suavizada. La siguiente capa, por lo tanto, repite el proceso de suavizado y obtiene una nueva predicción parcial. Tras procesar todas las capas, las predicciones parciales son sumadas para obtener la salida final. La idea intuitiva, por lo tanto, es que cada capa tenga un rol diferente, centrándose en diferentes aspectos de la serie temporal a través de la descomposición. A su vez, las capas deben colaborar para obtener la predicción final. La cuarta y última propuesta integra la selección de atributos dentro de la arquitectura de una las redes neuronales, con el objetivo de reducir la dimensionalidad del problema y mejorar la eficiencia de las técnicas de selección de atributos aplicadas a deep learning. Otras propuestas de selección de atributos aplicadas a deep learning tienen problemas de eficacia, eficiencia y/o interpretabilidad. Esta propuesta describe una nueva capa conectada a la entrada que sirva de puerta a las diferentes características de entrada, de esta manera se elimina la influencia de aquellas características que resultan irrelevantes para el problema. Gracias a esta capa se puede determinar las características de forma eficiente, sin disminuir la eficacia de la arquitectura en gran medida. Además, esta capa sirve como ventana a las características que la arquitectura ha establecido como irrelevantes, dando una idea del comportamiento aprendido.