Predicción de series temporales en streaming mediante Deep Learning

  1. Lara Benítez, Pedro
Dirigida por:
  1. Jose María Luna Romera Director/a
  2. José Cristobal Riquelme Santos Director/a

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 27 de junio de 2022

Tipo: Tesis

Resumen

Esta tesis, presentada como un compendio de artículos de investigación, aborda la predicción de series temporales en un entorno de streaming mediante técnicas de deep learning. En primer lugar, se aporta un innovador framework asíncrono para la aplicación de modelos deep learning a datos provenientes de un stream a gran velocidad. Además, se realiza un exhaustivo estudio sobre la aplicabilidad de los métodos de deep learning para el problema de predicción de series temporales. La minería de datos en streaming es un problema fundamental aplicable a una gran multitud de campos donde los datos son generados secuencialmente a gran velocidad. Los requisitos de velocidad que caracterizan este escenario no permiten el uso de técnicas de deep learning, las cuales presentan un gran coste computacional. En esta tesis presentamos una solución a este problema: un framework asíncrono (ADLStream) que separa las fases de entrenamiento y predicción de los modelos de entrenamiento, aliviando así el coste computacional de los modelos y permitiéndoles adaptarse a la evolución de los datos a lo largo del tiempo. Esta propuesta ha sido evaluada experimentalmente usando diversos conjuntos de datos de clasificación de series temporales y comparándolo con los modelos del estado del arte para la minería de datos en streaming, como son los árboles de Hoeffding, detectores de deriva o modelos ensembles. Los resultados demostraron la mejora en el rendimiento conseguida con nuestra propuesta. La predicción de series temporales es uno de los problemas de aprendizaje automático y estadísticos más comunes, engloba todas los datos que tienen una componente temporal, presentes en problemas meteorológicos, energéticos, médicos, logísticos o financiarios. La irrupción del aprendizaje profundo (deep learning) como estado del arte en la minería de datos, ha beneficiado a la investigación relacionada con la predicción de series temporales. Por ello, en esta tesis presentamos el estudio experimental más completo sobre la aplicabilidad de deep learning para la predicción de series temporales. Más de 50000 series temporales fueron usadas para este estudio, donde entrenamos y evaluamos un total de 3800 modelos de diferentes arquitecturas: perceptrón multicapa (MLP), red neuronal recurrente de Elman (ERNN), red recurrente LSTM (long-short term memory), red recurrente GRU (gated recurrent unit), red recurrente ESN (echo state network), red neuronal convolucional (CNN), red convolucional temporal (TCN) y el Transformer. Los resultados de estos experimentos muestran que las redes LSTM y CNN son las mejores alternativas. La LSTM consiguió obtener las predicciones más acertadas, mientras que las CNN lograron un rendimiento comparable pero con una variabilidad menor y un menor coste computacional. La última contribución presentada en esta tesis tiene como objetivo combinar las dos principales temáticas, tanto la predicción de series temporales como la minería de datos en streaming, en una aplicación real como es la predicción de la irradiancia solar. La crisis climática y energética ha acelerado la búsqueda de fuentes de energías renovables, y concretamente la energía solar, ya que se presenta como una de las fuentes más prometedoras. Para la gestión de los parques fotovoltaicos, es necesario llevar a cabo una correcta balanceo de carga, lo cual necesita de una predicción acertada de la irradiancia a corto plazo. En esta tesis presentamos una solución basada en el framework ADLStream y en modelos de deep learning para predecir la irradiancia solar de los paneles solares de un parque fotovoltaico canadiense en streaming. Los resultados obtenidos confirman la idoneidad de esta solución, obteniendo predicciones muy acertadas y demostrando una gran capacidad de adaptación a la evolución de los datos del stream.