Preprocessing algorithmus oriented towards supervised classification of high dimensionality databases: applications to multimedia data mining.

Bermejo López, Pablo

Preprocessing algorithmus oriented towards supervised classification of high dimensionality databasesapplications to multimedia data mining.

Bermejo López, Pablo

Supervised by:

José Miguel Puerta Callejón Director
José Antonio Gámez Martín Director

Defence university: Universidad de Castilla-La Mancha

Fecha de defensa: 16 April 2010

Committee:

Antonio Fernández Caballero Chair
Luis de la Ossa Secretary
Roberto Ruiz Committee member
Iñaki Inza Cano Committee member
Joemon M. Jose Committee member

Type: Thesis

Teseo: 288943 DIALNET RUIdeRA editor

Abstract

El tema central de esta Tesis, dividida en 4 partes, es el preprocesamiento supervisado de bases de datos de alta dimensionalidad. La primera parte presenta una introducción a la Clasificación Supervisada y la Selección Supervisada de Atributos; explicando así los conocimientos básicos necesarios para seguir las propuestas y experimentos en el resto de la Tesis. Los Capítulos 3 al 5 de la segunda parte se centra en la mejora del algoritmo de selección de variables Incremental Wrapper Subset Selection (IWSS), mediante: (1) mejorar el criterio de selección de una variable; (2) añadir un método de reemplazo de variables seleccionadas y no seleccionadas para capturar (in)dependencias; (3) reducción drástico del tiempo de ejecución de IWSS embebiendo el clasificador Naïve Bayes y criterio de parada adaptativo; (4) reducción drástica del número de evaluaciones necesarias mediante la opción de re-rankear el ranking sobre el que se ejecuta IWSS para capturar (in)dependencias entre variables y terminar pronto el algoritmo; y (5) introducción de aleatoriedad mediante un algoritmo GRASP con IWSS para ampliar el espacio de búsqueda. Los experimentos se realizan con bases de datos de microarrays y texto. El Capítulo 6 presenta un método novedoso de balancea mediante métodos de muestreo de instancias basados en distribuciones, con aplicación a clasificación de correo-e en carpetas. La tercera parte de esta Tesis está compuesta por 2 capítulos en cuyos experimentos se utilizan bases de datos de vídeo. El Capítulo 7 presenta una introducción a las variables más comunes en la representación de documentos multimedia; y además realiza una comparación entre diferentes tipos de representación. El Capítulo 8 realiza experimentos para averiguar si el contexto de un usuario realizando una tarea de recuperación de la información (e.g. búsqueda on-line de documentos) afecta a la calidad de los resultados. Los experimentos sugieren que las bases de datos pueden ser preprocesadas mediante una selección de instancias basada en el contexto en que dichas instancias fueron creadas. Finalmente, la última parte de la tesis presenta las principales conclusiones obtenidas.