Preprocessing algorithmus oriented towards supervised classification of high dimensionality databases: applications to multimedia data mining.

Bermejo López, Pablo

Preprocessing algorithmus oriented towards supervised classification of high dimensionality databasesapplications to multimedia data mining.

Bermejo López, Pablo

unter der Leitung von:

José Miguel Puerta Callejón Doktorvater/Doktormutter
José Antonio Gámez Martín Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Castilla-La Mancha

Fecha de defensa: 16 von April von 2010

Gericht:

Antonio Fernández Caballero Präsident/in
Luis de la Ossa Sekretär/in
Roberto Ruiz Vocal
Iñaki Inza Cano Vocal
Joemon M. Jose Vocal

Art: Dissertation

Teseo: 288943 DIALNET RUIdeRA editor

Zusammenfassung

El tema central de esta Tesis, dividida en 4 partes, es el preprocesamiento supervisado de bases de datos de alta dimensionalidad. La primera parte presenta una introducción a la Clasificación Supervisada y la Selección Supervisada de Atributos; explicando así los conocimientos básicos necesarios para seguir las propuestas y experimentos en el resto de la Tesis. Los Capítulos 3 al 5 de la segunda parte se centra en la mejora del algoritmo de selección de variables Incremental Wrapper Subset Selection (IWSS), mediante: (1) mejorar el criterio de selección de una variable; (2) añadir un método de reemplazo de variables seleccionadas y no seleccionadas para capturar (in)dependencias; (3) reducción drástico del tiempo de ejecución de IWSS embebiendo el clasificador Naïve Bayes y criterio de parada adaptativo; (4) reducción drástica del número de evaluaciones necesarias mediante la opción de re-rankear el ranking sobre el que se ejecuta IWSS para capturar (in)dependencias entre variables y terminar pronto el algoritmo; y (5) introducción de aleatoriedad mediante un algoritmo GRASP con IWSS para ampliar el espacio de búsqueda. Los experimentos se realizan con bases de datos de microarrays y texto. El Capítulo 6 presenta un método novedoso de balancea mediante métodos de muestreo de instancias basados en distribuciones, con aplicación a clasificación de correo-e en carpetas. La tercera parte de esta Tesis está compuesta por 2 capítulos en cuyos experimentos se utilizan bases de datos de vídeo. El Capítulo 7 presenta una introducción a las variables más comunes en la representación de documentos multimedia; y además realiza una comparación entre diferentes tipos de representación. El Capítulo 8 realiza experimentos para averiguar si el contexto de un usuario realizando una tarea de recuperación de la información (e.g. búsqueda on-line de documentos) afecta a la calidad de los resultados. Los experimentos sugieren que las bases de datos pueden ser preprocesadas mediante una selección de instancias basada en el contexto en que dichas instancias fueron creadas. Finalmente, la última parte de la tesis presenta las principales conclusiones obtenidas.