Metodología ensemble para clasificación ordinal y aplicación en el control de calidad del aceite de oliva

  1. Vega Márquez, Belén
Supervised by:
  1. Isabel de los Ángeles Nepomuceno Chamorro Director
  2. Cristina Rubio Escudero Director

Defence university: Universidad de Sevilla

Fecha de defensa: 21 April 2022

Type: Thesis

Abstract

A día de hoy nos encontramos ante un nuevo paradigma que está revolucionando completamente la forma en la que vemos las cosas. Este nuevo paradigma surge ante el gran volumen de datos que se generan mediante multitud de dispositivos conectados entre sí y la necesidad de obtener conocimiento a partir de toda esta información. El auge de las tecnologías y la gran capacidad de computación de la que disponemos a día de hoy ha hecho posible que términos como ciencia de datos, minería de datos, inteligencia artificial o aprendizaje automático hayan cobrado mucha importancia en la sociedad actual. Todos estos términos tienen en común un factor, y es el de extraer conocimiento a partir de los datos. El aprendizaje automático es un tipo de inteligencia artificial que proporciona a las máquinas de computación la capacidad de aprender sin ser programadas explícitamente para llegar a ese conocimiento. Este aprendizaje puede verse desde 2 puntos de vista diferentes según si los datos están etiquetados previamente o no. Si los datos de partida están etiquetados se denomina aprendizaje supervisado, y si no están etiquetados se pasa a llamar aprendizaje no supervisado. El aprendizaje supervisado trata de encontrar una función capaz de explicar los datos de entrenamiento. Esta función trata de buscar relaciones que asocie entradas con salidas a partir de un conjunto de datos etiquetados, es decir, cuyas entradas y salidas son conocidas. Dependiendo del objetivo a predecir, hablamos de clasificación, si el atributo es categórico o de regresión, si el atributo es numérico. En el caso de los problemas de clasificación, la mayoría de algoritmos y modelos desarrollados hasta el momento no tienen en cuenta una posible relación de orden entre las distintas etiquetas cuando realmente sí lo hay. Aquellos modelos que sí tienen en cuenta este factor se denominan modelos de clasificación ordinal y han demostrado obtener resultados muy prometedores cuando la etiqueta a predecir tiene valores que guardan relación entre sí. Esta tesis doctoral analiza y desarrolla una nueva metodología de aprendizaje supervisado para realizar clasificación ordinal. Esta nueva propuesta consiste en un algoritmo ensemble que combina la salida de clasificadores individuales mediante un sistema de votación por pesos, dichos pesos son calculados tras un proceso de optimización llevado a cabo mediante un algoritmo genético. Esta tesis se presenta como compendio de artículos de investigación con un total de 5 publicaciones, 3 de ellas publicadas en revistas con alto índice de impacto en el Journal Citation Reports y 2 de ellas como aportaciones científicas en congresos internacionales. La necesidad de desarrollar este algoritmo surge ante el análisis de la calidad del aceite de oliva. La calidad del aceite de oliva viene determinada por factores físico-químicos que son traducidos en etiquetas que tienen un orden de relación entre ellas dependiendo del grado de calidad de las muestras. Los resultados obtenidos fueron muy prometedores, demostrando que esta metodología es una muy buena alternativa para este problema concreto. La importancia de una correcta clasificación de un producto tan importante en la economía española, como es el aceite de oliva y teniendo en cuenta la riqueza y variedad de los datos con los que contábamos, decidimos también explorar otras técnicas de inteligencia artificial, como son las redes neuronales artificiales, para tratar el mismo problema desde distintos puntos de vista, con el objetivo de obtener los mejores resultados posibles. Por último, dada la delicadeza y privacidad de los datos con los que trabajábamos, se hizo un estudio de técnicas de inteligencia artificial para la generación de datos sintéticos, con el objetivo de poder compartir datos con otros grupos de investigación sin poner en compromiso los datos originales. La técnica utilizada fue las redes neuronales generativas adversariales (GANs) que demostraron tener mucho éxito en la generación de datos sintéticos.