Clasificación de flujos de datos basada en similitud

  1. Mena Torres, Dayrelis
Supervised by:
  1. Jesús Salvador Aguilar-Ruiz Director

Defence university: Universidad de Granada

Fecha de defensa: 26 June 2014

Committee:
  1. José Cristobal Riquelme Santos Chair
  2. Rocio Celeste Romero Secretary
  3. Pedro Villar Castro Committee member
  4. Raúl Giráldez Committee member
  5. Rafael Bello Pérez Committee member

Type: Thesis

Abstract

La minería de flujos de datos es un campo de estudio que supone nuevos desafíos a nivel mundial. La diseminación de este fenómeno ha necesitado el desarrollo de nuevos algoritmos y aplicaciones, donde muchos son los problemas por solucionar y optimizar aún. Es importante contar con técnicas de Inteligencia Artificial (IA) en esta área de investigación, con el objetivo de optimizar los procesos y apoyar la toma de decisiones en tiempo real, ampliando así la funcionalidad de sus métodos. Las técnicas de Aprendizaje Incremental son ampliamente utilizadas en esta área, pues presentan como característica fundamental su capacidad de incorporar nuevas experiencias y evolucionar la base de conocimiento obtenida, desde una estructura sencilla hacia otra más compleja. En este tema, especialmente los algoritmos para resolver problemas de clasificación, representan una importante tarea, siendo los más tratados por la comunidad de investigadores, dada la necesidad creciente de su aplicación en problemas reales. La presente investigación profundiza en el estudio de la aplicación de diferentes técnicas de clasificación de flujos de datos y realiza un análisis comparativo con una propuesta original basada en similitud. Como principal resultado de la investigación se presenta la propuesta de un Algoritmo de Clasificación para Flujo de Datos Basado en Similitud, que almacena un conjunto de casos en memoria de forma organizada, manteniendo esta base de casos actualizada a partir de la política de inserción y eliminación que implementa, basada en el uso de estimadores diseñados para apoyar la correcta selección de los casos que deben ser almacenados y adaptándose a los cambios de concepto graduales y abruptos que puedan ocurrir en la función objetivo, a través de una metodología propia. Además se muestran su eficiencia y eficacia sobre conjuntos de datos sintéticos, bases de datos internacionalmente conocidas y ampliamente utilizadas pertenecientes a la UCI Machine Learning Repository, y problemas reales de flujos de datos, especialmente problemas desbalanceados.