Modelos híbridos de predicción para big data streaming

  1. Jiménez Herrera, Patricia
Supervised by:
  1. Gualberto Asencio Cortés Director
  2. Alicia Troncoso Lora Co-director

Defence university: Universidad Pablo de Olavide

Fecha de defensa: 24 February 2025

Committee:
  1. Francisco Martínez-Álvarez Chair
  2. David Gutiérrez-Avilés Secretary
  3. María del Mar Martínez Ballesteros Committee member
Department: Deporte e Informática

Type: Thesis

Teseo: 841413 DIALNET lock_openTESEO editor

Abstract

La predicción de series temporales se ha convertido en una herramienta indispensable en infinidad de aplicaciones y procesos industriales. Actualmente existe una amplia variedad de algoritmos para estimar la evolución de los valores, que resultan más o menos adecuados dependiendo de las características y patrones que deben inferirse en cada aplicación. La primera fase de la Tesis Doctoral realizada, consiste en un método de predicción de series temporales univariantes y multivariantes basado en un ensemble de algoritmos de clustering, clasificación y regresión. El modelo planteado se aplica sobre dos series temporales distintas, para evaluar los resultados obtenidos y compararlos con otros modelos de predicción comúnmente utilizados. El planteamiento utilizado consiste en agrupar las ventanas de la serie con características similares, aplicando técnicas de análisis no supervisado, para después aplicar un método de predicción específico para cada grupo, entrenado únicamente con las ventanas correspondientes. Este trabajo se ha publicado en un artículo científico en la revista Information Sciences en 2023. La segunda parte del trabajo presenta un enfoque novedoso para la previsión de grandes series temporales que se reciben en streaming, basado en los patrones de similitud más cercanos. Este enfoque combina un algoritmo de clustering, un algoritmo de clasificación y un algoritmo de vecinos más cercanos. Presenta dos fases independientes: offline y online. La fase offline sirve para entrenar y encontrar los mejores modelos para clustering, clasificación y vecinos mas cercanos. La fase online sirve para predecir grandes series temporales en tiempo real. En la fase offline, los datos se dividen en clusters y se entrena un modelo de predicción basado en los vecinos más cercanos para cada uno de ellos. Además, se entrena un clasificador utilizando las asignaciones de clusters generadas previamente por el algoritmo de clustering. En la fase online, el clasificador predice la etiqueta del clúster de una instancia y se aplica el modelo de vecinos más cercanos adecuado según dicha etiqueta predicha, para así obtener la predicción final utilizando los patrones similares. El algoritmo puede actualizarse de forma incremental para el aprendizaje en línea a partir de flujos de datos. Los resultados de la predicción con 4 horas de antelación se presentan para el consumo de electricidad con una granularidad de 10 minutos y se comparan con diferentes algoritmos conocidos en la literatura, mostrando una notable mejora en la precisión de la predicción. Los resultados de esta experimentación se expusieron en 15th International Conference on Hybrid Artificial Intelligent System (HAIS) en 2020. Posteriormente, se amplió la experimentación y la metodología, dando lugar a un artículo publicado en la revista Logic Journal of the IGPL en 2023.