Mejora de métodos de análisis de datos con aplicación en datos biomédicos
- Domingo Savio Rodríguez Baena Director
- Francisco Antonio Gómez-Vela Co-director
Universidade de defensa: Universidad Pablo de Olavide
Fecha de defensa: 01 de xullo de 2022
- Francisco Martínez-Álvarez Presidente
- Juan Antonio Nepomuceno Chamorro Secretario/a
- Isabel de los Ángeles Nepomuceno Chamorro Vogal
Tipo: Tese
Resumo
Hoy en día, el volumen de datos está creciendo con rapidez en una multitud de campos científicos como, por ejemplo, el campo biomédico. Con el aumento continuo del tamaño de las bases de datos, muchos enfoques tradicionales para el análisis de datos biológicos y biomédicos tienen como importante desafío el analizar esta gran cantidad de datos dentro de un tiempo razonable. Por este motivo, es evidente la necesidad de desarrollar nuevos métodos computacionales que puedan soportar el volumen, la variedad, la velocidad y la veracidad que caracterizan a estos tipos de datos. Las técnicas de aprendizaje automático y, más concretamente, las técnicas de Biclustering, se han convertido en una herramienta esencial para el análisis de este tipo de datos en cualquier tipo de estudio. Las nuevas características que definen los tipos de datos citados anteriormente, así como las decisiones incorrectas a la hora de gestionar los recursos computacionales hardware y software, hacen que las técnicas de Biclustering no sean aún eficientes a pesar de haber realizado grandes avances durante los últimos años para acelerar su rendimiento computacional. Por otro lado, cuanto mayor sea el volumen de datos, mayor será el número de posibles soluciones. Por lo que, desde la perspectiva del usuario final, realizar un análisis o validación de una cantidad ingente de soluciones biológicas se vuelve extremadamente desafiante. Esta tesis presenta tres principales aportaciones denominadas biGO, gBiBit y gMSR. biGO es una herramienta web de análisis de enriquecimiento de genes que permite obtener y mejorar el conocimiento biológico útil a partir de un conjunto de biclusters de entrada. Una de las mejoras de conocimiento biológico útil radica en que a través de un análisis visual, en forma de grafo interactivo, podemos determinar conexiones funcionales no sólo a nivel de términos biológicos de un mismo bicluster, sino, conocer las interconexiones funcionales entre los múltiples biclusters que intervienen en el experimento. El segundo trabajo denominado gBiBit es un algoritmo de Biclustering que ha sido diseñado para utilizar al máximo los recursos computacionales que ofrece un clúster de dispositivos GPU. El uso de dispositivos GPU ofrece una mejora sustancial del rendimiento computacional, pero, por su tecnología, no garantiza que puedan procesar grandes conjuntos de datos. El algoritmo que se presenta en esta tesis ha elaborado una metodología que no sólo permite ofrecer resultados en un tiempo razonable sino que es capaz de procesar grandes conjuntos de datos superando las limitaciones de estos dispositivos y que en otros trabajos sí que se ven representados. gMSR es una versión de la medida de proximidad MSR y que utiliza un clúster de dispositivos GPU para acelerar el rendimiento computacional de la medida original y ser capaz de validar la bondad de una cantidad ingente de biclusters. Hasta donde sabemos, esta tecnología aún no ha sido utilizada en ninguna técnica de validación de biclusters. Gracias a los trabajos propuestos, esta tesis doctoral aporta a la comunidad científica un mayor conocimiento sobre cómo los métodos computacionales deben adaptarse para permitir generar sus resultados en un tiempo razonable a partir de grandes conjuntos de datos biomédicos. Por otro lado, existen tecnologías de computación de alto rendimiento (HPC) que hasta ahora únicamente fueron utilizados para acelerar el rendimiento computacional de estos métodos computacionales como, por ejemplo, los dispositivos GPU. En esta tesis doctoral, se demuestra cómo los dispositivos GPU pueden ser igualmente utilizados para que los métodos computacionales puedan estos grandes conjuntos de datos biomédicos.