Evolutionary algorithms to discover quantitative association rules

  1. María del Mar Martínez Ballesteros
Supervised by:
  1. Alicia Troncoso Director
  2. José Cristobal Riquelme Santos Director

Defence university: Universidad de Sevilla

Year of defence: 2012

Committee:
  1. José Miguel Toro Bonilla Chair
  2. Santiago Patricio Serendero Sáez Secretary
  3. Sancho Salcedo Sanz Committee member
  4. Emilio Santiago Corchado Rodríguez Committee member
  5. María José del Jesús Díaz Committee member

Type: Thesis

Teseo: 322056 DIALNET lock_openIdus editor

Abstract

EVOLUTIONARY ALGORITHMS TO DISCOVER QUANTITATIVE ASSOCIATION RULES La investigación que se propone en el trabajo reflejado en esta memoria de tesis doctoral, se incluye dentro de la disciplina del descubrimiento de conocimiento en bases de datos y en concreto, se centra en la etapa de minería de datos. La mayoría de las tareas de la minería de datos están basadas en el aprendizaje inductivo y dentro del mismo, el trabajo presentado pertenece al aprendizaje no supervisado. Concretamente, las reglas de asociación será la técnica utilizada para la obtención de conocimiento. Esta memoria de investigación se centra entonces en la extracción de reglas de asociación cuantitativas basadas en técnicas de computación evolutiva. En concreto, se plantean cuatro propuestas: un algoritmo evolutivo de codificación real denominado QARGA, otro algoritmo evolutivo de codificación real que extiende el conocido algoritmo CHC de codificación binaria, llamado QARGA-CHC. La tercera propuesta, EQAR, es una versión mejorada de QARGA-CHC y por último, la cuarta propuesta denominada MOQAR se basa en una optimización multiobjetivo que sigue el esquema del algoritmo NSGA-II. Existen numerosos algoritmos y herramientas para la extracción de reglas de asociación que trabajan sobre dominios continuos pero que se limitan a discretizar dichos dominios mediante alguna estrategia concreta para tratarlos posteriormente como si fueran discretos. Sin embargo, las reglas de asociación cuantitativas que se han obtenido en los algoritmos propuestos en esta tesis doctoral, trabajan con intervalos sobre los atributos sin necesidad de una discretización previa de los datos. Asimismo permiten un cierto grado de libertad para elegir el tipo de reglas que se van a obtener y que las variables no sean forzadas a pertenecer al antecedente o al consecuente. Las cuatro propuestas desarrolladas en esta tesis doctoral se han aplicado sobre diferentes tipos de datos y dominios. En concreto se han evaluado sobre datos sintéticos bajo diferentes niveles de ruido y bases de datos públicas en las cuales se ha establecido una comparación con otras técnicas de la literatura. Además, se han descubierto reglas de asociación sobre series temporales climatológicas reales con el objetivo de encontrar todas las relaciones existentes entre la contaminación atmosférica y las condiciones climatológicas. También se han extraído reglas en series de datos de ozono procedente de observaciones de satélites en la península ibérica para intentar modelar las relaciones entre el ozono y variables climáticas en distintas ciudades. Finalmente se presenta una aplicación de nuestra herramienta a datos biológicos, en concreto, microarrays para la determinación de relaciones entre genes y sus niveles de expresión.