Lógica difusa aplicada a conjuntos imbalanceadosaplicación a la detección del Síndrome de Down

  1. Vicenç Soler Ruiz
Supervised by:
  1. Marta Prim Sabrià Director
  2. Jordi Roig de Zárate Director

Defence university: Universitat Autònoma de Barcelona

Fecha de defensa: 12 April 2007

Committee:
  1. Jordi Aguiló Llobet Chair
  2. Ivan Erill Sagalés Secretary
  3. Jesús Cerquides Bueno Committee member
  4. J. Sabrià Rius Committee member
  5. José Ramón Dorronsoro Ibero Committee member

Type: Thesis

Teseo: 137561 DIALNET lock_openTDX editor

Abstract

El problema a resolver en esta Tesis Doctoral consiste en hallar una solución que mejore la clasificación que se consigue actualmente para el problema de la detección precoz del síndrome de Down en fetos, durante el segundo trimestre de embarazo, con técnicas no invasivas. El conjunto de datos usado para la detección del síndrome de Down es de dos clases y de tipo imbalanceado, es decir, que hay una gran diferencia entre el número de casos correspondientes a fetos que no son afectados por el síndrome de Down y los que sí lo son. Para tratar de mejorar la clasificación que se logra en la actualidad, se ha desarrollado un nuevo método de Soft Computing basado en Lógica Difusa diseñado para trabajar con conjuntos de datos imbalanceados. Este método permite, no sólo hallar una buena solución, sino también extraer el conocimiento adquirido. El método desarrollado se denomina FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) y se basa en la idea de que la solución generalice lo máximo posible, para evitar el efecto de sobreaprendizaje (overfitting) que se produce en la mayoría de métodos al tratar de trabajar con un conjunto de datos imbalanceado. Para proporcionar las herramientas necesarias al método para que generalice, se ha desarrollado un algoritmo llamado ReRecBF, que forma parte del método FLAGID. Este algoritmo transforma las funciones de pertenencia obtenidas a partir de los datos por otro algoritmo ya existente llamado DDA/RecBF. Esta transformación consiste en convertir las funciones de pertenencia generadas a partir de los casos de la clase-menor en funciones triangulares, dejar como funciones trapezoidales las funciones de pertenencia de la clase-mayor y dividir las funciones de pertenencia que se solapen. Finalmente, debido a que se generan nuevas funciones de pertenencia, un algoritmo genético es usado simplemente para hallar las reglas que más se ajusten a las nuevas funciones. Los resultados obtenidos han mejorado la tasa de falsos positivos en el conjunto de datos del síndrome de Down hasta el 4%, con una tasa de verdaderos positivos del 60%. Esta es la primera vez que un método consigue bajar del 5% de falsos positivos con esa tasa de aciertos en los verdaderos positivos. Además, se ha extraído el conocimiento del resultado, y éste ha coincidido, en su mayoría, con el conocimiento existente en el campo de la medicina. Otro hecho remarcable es que se ha comprobado que el método también es útil para trabajar con conjuntos de datos imbalanceados. Finalmente, los resultados de este trabajo realizan aportaciones nuevas en el campo de la medicina, como son la importancia de la edad gestacional del feto en la detección de los casos positivos y que el peso de la madre tiene más importancia que simplemente el calibrar los dos indicadores hormonales AFP y hCG. The problem to solve in this PhD Thesis consists of finding a solution that improves the classification that is obtained at the moment for the problem of the detection of the Down syndrome in fetuses, during the second trimester of pregnancy, with non-invasive techniques. The dataset used for the detection of the Down syndrome is imbalanced and two classes type, that is, that there are a great difference between the number of cases corresponding to fetuses that are not affected by the Down syndrome and those that are affected. In order to try to improve the classification that is obtained at the present time, a new method of Soft Computing has been developed based on Fuzzy Logic and designed to work with imbalanced datasets. This method allows, not only to find a good solution, but also to extract the acquired knowledge. The developed method is called FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) and it is based on the idea that the solution tries to generalize at maximum, avoiding the overfitting effect that takes place in most of methods when trying to work with an imbalanced dataset. In order to provide the necessary tools to the method that allows it to generalize, an algorithm called ReRecBF has been developed, which is a part of method FLAGID. This algorithm transforms the membership functions obtained from the data by another existing algorithm, called DDA/RecBF. This transformation consists of turning the membership functions generated from the cases of the minor-class in triangular functions, leaving like trapezoidal functions the membership functions of the major-class, dividing the membership functions that are overlapped. Finally, because new membership functions are generated, a genetic algorithm is used simply to find the rules that adjust more to the new functions. The results obtained have improved the rate of false positives in the data set of the Down syndrome until 4%, with a rate of true positives of 60%. This is the first time that a method is able to achieve a lower rate of 5% of false positives with that rate of successes in the true positives. In addition, the knowledge of the result has been extracted, and this one has agreed, in its majority, with the existing knowledge in the field of the medicine. Another remarkable fact is that it has been verified that the method also is useful to work with imbalanced datasets. Finally, the results of this work make new contributions in the field of the medicine, like the importance of the gestational age of the fetus in the detection of the positive cases and that the weight of the mother has more indicating importance than simply calibrating both hormonal AFP and hCG.