Nuevos métodos híbridos de computación flexible para clasificación multietiqueta

Charte Ojeda, Francisco

Nuevos métodos híbridos de computación flexible para clasificación multietiqueta

Charte Ojeda, Francisco

Zuzendaria:

Antonio Jesús Rivera Rivas Zuzendarikidea
Francisco Herrera Triguero Zuzendarikidea
María José del Jesús Díaz Zuzendarikidea

Defentsa unibertsitatea: Universidad de Granada

Fecha de defensa: 2015(e)ko maiatza-(a)k 15

Epaimahaia:

Antonio González Muñoz Presidentea
Salvador García López Idazkaria
Emilio Santiago Corchado Rodríguez Kidea
Sebastián Ventura Soto Kidea
José Cristobal Riquelme Santos Kidea

Mota: Tesia

Teseo: 382737 DIALNET

Laburpena

Nuevos métodos híbridos de computación flexible para clasificación multietiqueta La presente tesis aborda el estudio de nuevas técnicas de tratamiento de los datos con el objetivo de mejorar el funcionamiento de los sistemas de clasificación multietiqueta. La motivación de este trabajo está en el cada vez mayor número de campos de aplicación de dicho tipo de clasificación, a raíz de la necesidad de etiquetar documentos de todo tipo: textos, imágenes, vídeos, música, etc., y su utilidad en otros campos como la medicina y la genética, especialmente la predicción de funciones de proteínas. En el desarrollo de la tesis se siguen fundamentalmente dos estrategias: aprovechar la información de correlación entre etiquetas a fin de reducir la dimensionalidad del espacio de salida, por una parte, y analizar las características específicas de los conjuntos de datos multietiqueta a fin de proponer algoritmos de preprocesamiento a medida para reducir el desequilibrio entre etiquetas y mejorar el rendimiento de los clasificadores. El trabajo en estas dos vías ha llevado al diseño y desarrollo de múltiples algoritmos recogidos en la tesis, cuya finalidad se resume a continuación: - LI-MLC: Es un método en el que se hibrida un algoritmo de minería de reglas de asociación con métodos de clasificación multietiqueta existentes, reduciendo la dimensionalidad del espacio de salida a fin de mejorar el rendimiento y la eficiencia. - LP-ROS/LP-RUS: Métodos de remuestreo aleatorio basados en la técnica de transformación para conjuntos de datos multietiqueta conocida como LP (Label Powerset). - ML-ROS/ML-RUS: Métodos de remuestreo aleatorio basados en el análisis individual de la frecuencia de aparición de cada etiqueta en el conjunto de datos. - MLSMOTE: Algoritmo de generación de instancias sintéticas para conjuntos de datos multietiqueta. - MLeNN: Algoritmo de eliminación de instancias basado en la regla del vecino más cercano. - REMEDIAL: Método de preprocesamiento que permite mejorar el rendimiento en clasificación mediante la separación de etiquetas con desbalanceo. Además de los citados algoritmos, junto con su correspondiente experimentación, la tesis también propone múltiples medidas de caracterización para conjuntos de datos multietiqueta y el análisis justificado sobre su utilidad y aplicación.