Preprocessing algorithmus oriented towards supervised classification of high dimensionality databasesapplications to multimedia data mining.
- Bermejo López, Pablo
- José Miguel Puerta Callejón Doktorvater/Doktormutter
- José Antonio Gámez Martín Doktorvater/Doktormutter
Universität der Verteidigung: Universidad de Castilla-La Mancha
Fecha de defensa: 16 von April von 2010
- Antonio Fernández Caballero Präsident/in
- Luis de la Ossa Sekretär/in
- Roberto Ruiz Vocal
- Iñaki Inza Cano Vocal
- Joemon M. Jose Vocal
Art: Dissertation
Zusammenfassung
El tema central de esta Tesis, dividida en 4 partes, es el preprocesamiento supervisado de bases de datos de alta dimensionalidad. La primera parte presenta una introducción a la Clasificación Supervisada y la Selección Supervisada de Atributos; explicando así los conocimientos básicos necesarios para seguir las propuestas y experimentos en el resto de la Tesis. Los Capítulos 3 al 5 de la segunda parte se centra en la mejora del algoritmo de selección de variables Incremental Wrapper Subset Selection (IWSS), mediante: (1) mejorar el criterio de selección de una variable; (2) añadir un método de reemplazo de variables seleccionadas y no seleccionadas para capturar (in)dependencias; (3) reducción drástico del tiempo de ejecución de IWSS embebiendo el clasificador Naïve Bayes y criterio de parada adaptativo; (4) reducción drástica del número de evaluaciones necesarias mediante la opción de re-rankear el ranking sobre el que se ejecuta IWSS para capturar (in)dependencias entre variables y terminar pronto el algoritmo; y (5) introducción de aleatoriedad mediante un algoritmo GRASP con IWSS para ampliar el espacio de búsqueda. Los experimentos se realizan con bases de datos de microarrays y texto. El Capítulo 6 presenta un método novedoso de balancea mediante métodos de muestreo de instancias basados en distribuciones, con aplicación a clasificación de correo-e en carpetas. La tercera parte de esta Tesis está compuesta por 2 capítulos en cuyos experimentos se utilizan bases de datos de vídeo. El Capítulo 7 presenta una introducción a las variables más comunes en la representación de documentos multimedia; y además realiza una comparación entre diferentes tipos de representación. El Capítulo 8 realiza experimentos para averiguar si el contexto de un usuario realizando una tarea de recuperación de la información (e.g. búsqueda on-line de documentos) afecta a la calidad de los resultados. Los experimentos sugieren que las bases de datos pueden ser preprocesadas mediante una selección de instancias basada en el contexto en que dichas instancias fueron creadas. Finalmente, la última parte de la tesis presenta las principales conclusiones obtenidas.