Feature selection in cancer research: microarray gene expression and in vivo 1h-mrs domains

Gonzalez Navarro, Félix F.

Feature selection in cancer researchmicroarray gene expression and in vivo 1h-mrs domains

Gonzalez Navarro, Félix F.

Dirigida por:

Lluis Antoni Belanche Muñoz Director/a

Universidad de defensa: Universitat Politècnica de Catalunya (UPC)

Fecha de defensa: 03 de junio de 2011

Tribunal:

José Cristobal Riquelme Santos Presidente/a
Alfredo Vellido Alacena Secretario/a
Alioune Ngom Vocal
José Javier Lorenzo Navarro Vocal
Tomàs Aluja Banet Vocal

Tipo: Tesis

Teseo: 112976 DIALNET

Resumen

En esta tesis, contribuciones en el campo de la Selección de Atributos son expuestas y aplicadas en el análisis de dos dominios médicos: La Expresión de Genes en Microarreglos de diversos cánceres y la Espectroscometría de Resonancia Magnética Protónica 1H-MRS de tumores cerebral. Estos dos tipos de datos comparten una característica común, su alta dimensionalidad y su escaces, pero divergen en algunos aspectos importantes, haciendo su modelación una tarea diferenciada. Esto guió el diseño y desarrollo de algoritmos ad hoc, cuya concepción estuvo basada en mantener en mente la obtención de soluciones útiles ¿i.e. modelos de clasificación¿en términos de simplicidad, facilidad de implementación y de demanda computacional accesible. Algunas contribuciones son hechas a nivel de diseño de algoritmos, algunas en el desarrollo de medidas para la búsqueda de subconjuntos de genes y/o puntos espectrales relevantes, y otras son hallazgos meramente experimentales. El algoritmo Termodinámico de Selección de Atributos (TAFS) es presentado como una estrategia de búsqueda para la Selección de Atributos (SA) basado en el algoritmo de Recocido Simulado (RS). Surgido fundamentalmente del recocido de metales, en el campo de la metalurgia, el RS es un método probabilístico de búsqueda para encontrar el mínimo global de una función que posee muchos mínimos locales. Dos versiones de este algoritmo fueron desarrolladas, la primera de ellas, encuentra subconjuntos de atributos con una búsqueda acoplada hacia adelante y hacia atrás y optimiza agresivamente cualquier función criterio ¿en nuestro caso, el mejor subconjunto de atributos en el espacio de búsqueda¿ a expensas de consumir tiempo computacional de manera considerable. El segundo introduce una modificación en la etapa hacia atrás con el propósito de lograr un esfuerzo computacional más manejable, siendo por lo tanto capaz de tratar con problemas de alta dimensión. Los dos algoritmos son ejecutados en una variedad de conjuntos de datos públicos ampliamente conocidos y algunos creados artificialmente. Un tercer algoritmo basado en RS que usa una implementación de una nueva forma de calcular medidas entrópicas es presentado. Esta última contribución incremente considerablemente la velocidad de búsqueda de RS tanto que dominios de alta complejidad, como los datos de expresión de genes en microarreglos, son posibles de analizarse en la búsqueda de subconjuntos de atributos. Contribuciones en el estudio de expresión de genes en microarreglos son presentados como sigue: El algoritmo de filtrado entrópico (EFA) para la SA es descrito como un método para generar subconjuntos de genes relevantes. Es un veloz método de SA basado en la búsqueda de subconjuntos de atributos que maximizan conjuntamente la entropía condicional multivariada normalizada con respecto a la habilidad de clasificación de tumores. EFA es probado en combinación con una gran cantidad de algoritmos de aprendizaje de máquina en cinco conjuntos de microarreglos de dominio público. En segunda instancia, sugerimos el uso, para medir la relevancia de subconjunto de genes, del filtrado entrópico de atributos mediante la consideración de la influencia de dos atributos sobre la variable de clase de manera simultánea. Muestreo Bootstrap es usado con el objetivo de entregar soluciones tan estables como sea posible, así como sus intervalos de confianza para los resultados de clasificación. Tanto como 5,000 muestras bootstrap son analizadas con el algoritmo Estrategia de Búsqueda del Mejor Subconjunto de Genes (BG3S).