Eficiencia y equidad en problemas de clasificación de datos con aplicaciones empresariales

  1. SANTOS MANGUDO, CARLOS
Dirigida por:
  1. Antonio José Heras Martínez Director/a

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 07 de octubre de 2022

Tribunal:
  1. José Luis Vilar Zanón Presidente/a
  2. Eva María del Pozo García Secretario/a
  3. Julio Hernández March Vocal
  4. Beatriz Balbás Aparicio Vocal
  5. Isabel Marta Miranda García Vocal

Tipo: Tesis

Resumen

Gran parte de los problemas de clasificación existentes en el mundo real implican, por un lado, la agrupación y optimización simultánea de varios atributos, los cuales generalmente presentan conflictos entre ellos, es decir, que la mejora en uno de ellos conduce a un deterioro en el otro; y por otro lado que dicha agrupación no incluya ningún tipo de sesgo entre atributos y sobre atributos sensibles o protegidos incluidos en el conjunto de datos inicial, como por ejemplo el género o el sexo, la raza, el estado civil, entre otros. A lo largo de la historia, la humanidad siempre ha estado dividiendo y clasificando todo cuanto nos rodea, las sociedades, las ciudades, las personas, los animales, la tierra, el universo, etc. La capacidad de clasificar y agrupar cualquier tipo de elemento o entidad, se vio implementada en los últimos años en algoritmos de clasificación, reconocimiento de patrones, reconocimiento de imágenes, toma de decisiones y por supuesto de inteligencia artificial. En los últimos años, la necesidad de prevenir los sesgos de clasificación debidos a la raza, género, sexo, religión, entre otros, ha aumentado el interés por diseñar algoritmos de clustering justos. La idea principal es asegurar que la salida de un algoritmo de cluster no esté sesgada hacia o contra subgrupos específicos de la población. Los algoritmos controlan cada vez un mayor número de decisiones relativas a la vida cotidiana de las personas en multitud de ámbitos, como la sanidad, el transporte, la educación, las admisiones universitarias, la contratación de personal, la concesión de préstamos y pólizas de seguros, la justicia, el marketing y muchos otros, por ello es fundamental desarrollar algoritmos que no solo puedan ser precisos, sino que también sean objetivos y justos en la clasificación que realicen. Presentamos un marco para la equidad algorítmica en la clasificación de datos de tipo categórico puro o de tipo mixto, y su implementación en un paquete software en lenguaje R de uso público, FairMclus®, explorando una nueva metodología que aúna la precisión en el agrupamiento con la equidad de los grupos al tratar atributos sensibles o protegidos, que además de su simplicidad en el diseño para poder seguir su proceso sin dificultad, nos asegure tres ventajas fundamentales: que el método sea transparente y fiable, preciso y equitativo en el momento de formar los grupos o cluster finales. Para evaluar el desempeño de FairMclus® y su metodología, se realiza el análisis en 16 Bases de Datos de diferentes repòsitorios web públicos, las cuales contienen atributos categóricos y/o numéricos, nueve de ellas son de tipo mixto y las siete restantes son de tipo categórico puro. Con respecto al objetivo de Estabilidad, muestra la mejor estabilidad en conseguir los mismos grupos con los mismos elementos dentro de cada uno de dichos clusters finales en todos los casos, alcanzando una puntuación máxima del 100% con todas las Bases de Datos utilizadas Con respecto al objetivo de Eficiencia/Precisión, se ha realizado la comparación con algoritmos populares y conocidos, tanto en el tratamiento de datos de tipo categórico puro (K-Modes, Daisy y Pam, Tclust), como en el tratamiento de datos de tipo mixto (K-Prototypes, Kamila, Tclust), utilizando cuatro medidas conocidas de eficiencia y una medida de equidad basada en la distancia entre la distribución final del atributo protegido y su distribución deseada. Con respecto al objetivo de Equidad, muestra el mejor rendimiento en todos los casos, alcanzando una puntuación máxima del 100% en prácticamente todos ellos, lo que nos permite estar en consonancia con las diferentes normativas existentes en Derechos Humanos, sobre la no discriminación por razones de genero, sexo, edad, raza, etc.