Una propuesta evolutiva para el descubrimiento de reglas cuantitativas y subgrupos

Pachón Álvarez, Victoria

Una propuesta evolutiva para el descubrimiento de reglas cuantitativas y subgrupos

Pachón Álvarez, Victoria

Dirigida por:

Jacinto Mata Vázquez Director/a

Universidad de defensa: Universidad de Huelva

Fecha de defensa: 14 de diciembre de 2012

Tribunal:

José Cristobal Riquelme Santos Presidente/a
Manuel Jesús Maña López Secretario/a
Jesús Salvador Aguilar-Ruiz Vocal

Tipo: Tesis

Teseo: 342979 DIALNET

Resumen

La extracción de conocimiento se puede abordar, en función del problema a resolver, desde dos perspectivas distintas: desde el punto de vista predictivo, en el que se intenta obtener conocimiento para clasificación o predicción, o desde el punto de vista descriptivo, intentando obtener información que describa el modelo que existe detrás de los datos. La inducción descriptiva se realiza bajo enfoques como la extracción de reglas, el descubrimiento de cláusulas, el descubrimiento de dependencias en bases de datos o el descubrimiento de subgrupos, entre otros. Descubrir reglas que incluyan tanto atributos cuantitativos como cualitativos en grandes bases de datos es un reto complejo. Hay muchos métodos que obtienen reglas de una base de datos, sin embargo, la mayoría de los investigadores se han centrado en bases de datos con atributos categóricos. Las bases de datos del mundo real contienen tanto atributos de tipo cuantitativo (por ejemplo, edad o sueldo), como atributos de tipo categórico (por ejemplo, código postal o marca del coche). La mayoría de las herramientas que trabajan con dominios continuos tan sólo se limitan a discretizar los atributos cuantitativos, utilizando para ello alguna estrategia específica, y los tratan como atributos categóricos. El gran número de discretizaciones que hay que llevar a cabo, el problema que supone manipular atributos de diferente tipo y la dificultad de manejar volúmenes de datos muy grandes dan lugar a que los algoritmos que extraen reglas cuantitativas estén menos estudiados, básicamente, porque los atributos numéricos son definidos dentro un rango grande de valores, lo que significa que cualquier proceso de discretización será un proceso complejo que puede producir errores. Las reglas de asociación cuantitativas no son una simple extensión de las reglas de asociación. El problema de obtener reglas de asociación cuantitativa es conocido como QARP (Quantitative Association Rules Problem). Por otro lado, el descubrimiento de subgrupos (SD, Subgroup Discovery) es un tipo de inducción descriptiva que ha recibido recientemente mucha atención por parte de los investigadores. La idea del descubrimiento de subgrupos se basa en, dado un conjunto de datos y una propiedad de esos datos en la que esté interesado el usuario, buscar subgrupos que sean interesantes para el usuario en el sentido de que tengan una distribución estadística inusual respecto a la propiedad resaltada por el usuario. A diferencia de la mayoría de las tareas de minería de datos, el objetivo del descubrimiento de subgrupos no es ni puramente predictivo (utilizar los resultados de la minería de datos para predecir o clasificar casos futuros) ni exclusivamente descriptivo (utilizarlos para describir un dominio o, más específicamente, la estructura de dependencia dominante entre las variables del dominio, de forma que sea interpretable por los usuarios finales). El objetivo del descubrimiento de subgrupos es descubrir propiedades características de subgrupos construyendo reglas individuales sencillas (con una estructura comprensible y en las que intervengan pocas variables), altamente significativas y con un alto soporte (que cubran muchas instancias de la clase objetivo). En un algoritmo de descubrimiento de subgrupos se extraen reglas o patrones de interés que representen el conocimiento de forma simbólica y que sean lo suficientemente sencillos y descriptivos como para ser reconocibles y utilizados por el usuario final. El uso de la lógica difusa para el tratamiento de variables continuas ayuda a expresar el conocimiento extraído de forma fácilmente interpretable por el experto, además de hacer posible el tratamiento de información con incertidumbre, muy común en problemas reales, y de permitir el procesamiento eficaz de la información experta disponible. Los algoritmos evolutivos , y en particular los algoritmos genéticos (AG) tienen un carácter de búsqueda global que hace que sean especialmente adecuados para resolver distintos problemas presentes en cualquier proceso de descubrimiento de conocimiento. En procesos de extracción de reglas, los AGs tratan de forma adecuada las interacciones entre atributos porque evalúan una regla como un todo mediante la función de adaptación, en lugar de evaluar el impacto de añadir o eliminar una condición de una regla, como ocurre en los procesos de búsqueda local incluidos en la mayoría de los algoritmos de inducción de reglas y árboles de decisión. El objetivo de esta tesis es estudiar el problema de la extracción de reglas y de descubrimiento de subgrupos de bases de datos numéricas y desarrollar un nuevo modelo evolutivo de extracción de reglas de asociación y descubrimiento de subgrupos. Para desarrollar este objetivo general, definimos los siguientes objetivos particulares: a) Realizar una revisión de los distintos modelos existentes de descubrimiento de reglas y de subgrupos. Puesto que el objetivo es diseñar un nuevo modelo evolutivo de extracción de reglas y de descubrimiento de subgrupos, el estudio de los sistemas actuales servirá para determinar las características de la tarea de descubrimiento de subgrupos, sus componentes fundamentales y sus objetivos. b) Desarrollar un modelo evolutivo de extracción de reglas y descubrimiento de subgrupos y analizar los componentes del modelo desarrollado, para obtener un sistema eficaz para la tarea de descubrimiento de subgrupos y reglas. Para esto se aplicará el modelo a diversos conjuntos de datos de prueba con distintas combinaciones de componentes y se analizarán los resultados obtenidos por cada uno de ellos y se comparará con las medidas obtenidas por otros modelos.