Anàlisi in silico de malalties: des de les mutacions fins les xarxes biològiques

Porta Pardo, Eduard

Anàlisi in silico de malaltiesdes de les mutacions fins les xarxes biològiques

Porta Pardo, Eduard

Dirigida por:

Ildefonso Cases Director
Ana María Rojas Mendoza Directora

Universidad de defensa: Universitat de Barcelona

Fecha de defensa: 05 de marzo de 2013

Tribunal:

Alfonso Valencia Herrera Presidente/a
Núria López Bigas Secretario/a
Migel Angel Pujana Genestar Vocal

Tipo: Tesis

Teseo: 342457 DIALNET TDX editor

Resumen

La generación masiva de datos provocada por el incremento en el uso de tecnologías de alcance genómico hace que las técnicas de análisis de datos bioinformáticos sean más necesarias que nunca. En el campo de la identificación de genes y mutaciones asociados a enfermedad, hay dos grupos de técnicas que se están convirtiendo en muy populares para la priorización de listas de genes y mutaciones candidatos: el análisis de enriquecimiento y el uso de redes biológicas. En esta tesis hemos evaluado el uso de estas técnicas para (I) identificar propiedades biológicas que asociadas a mutaciones específicas de ciertas enfermedades y (II) el uso de distintas redes de información biológica y diferentes algoritmos de la teoría de redes para priorizar genes asociados a 5 tipos de enfermedades distintas. Para ello hemos creado una base de datos relacional con información sobre genes y mutaciones asociados a enfermedades y las propiedades biológicas que se alteran en las enfermedades. Todas las anotaciones han sido hechas con ontologías o vocavularios controlados. El análisis de enriquecimiento nos ha permitido identificar propiedades enriquecidas o deplecionadas en mutaciones asociadas a distintas enfermedades. Entre ellas destacan el empobrecimiento en mutaciones asociadas a cáncer en puentes disulfuro, péptidos señal y dominios transmembrana, o el enriquecimiento de mutaciones de cáncer en regions intrínsecamente desesctruturadas, regiones de composición de sesgada y regiones ricas en serina. Nuestra hipótesis es que las propiedades empobrecidas se deben a que su mutación es deleterea para la célula tumoral. Ello se debe a que las células tumorales tienen preactivada una via que puede llevar a apoptosis, la via de respuesta a proteínas malplegadas. La mutación en puentes disulfuro, dominios transmembrana o péptidos señal provoca una acumulación de proteínas en el retículo endoplásmico y una sobractivación de dicha via, provocando la apoptosis de la célula. Por otro lado, creemos que las propiedades enriquecidas en mutaciones de cáncer lo son porqué permiten alterar interacciones proteína-proteína y alterar el proteoma, una propiedad que se ha asociado con propiedades tumorales. En cuanto al uso de redes biológicas para predecir nuevos genes asociados a distintas enfermedades, hemos usado 5 algoritmos distintos, 4 redes con asociaciones derivadas de distintos tipos de información biológica para predecir genes asociados a 5 enfermedades distintas. Los 5 algoritmos usados son: el contaje de vecinos hasta distancias 1, 2 y 3 (DN1, DN y DN3), el Diffusion Kernel (DK) y el caminador aleatorio (RWR). Los 2 últimos pertenecen a un grupo de algoritmos llamados "algoritmos de difusión" y, según publicaciones previas, tienen una mayor capacidad de predicción que los 3 primeros (las variantes del contaje de vecinos). No obstante, según nuestros resultados, esta superioridad no es generalizable y depende en gran medida del tipo de red usada y la enfermedad predecida. Las 4 redes que hemos empleado representan proteínas conectadas por distintos tipos de relaciones: interacciones físicas (que hemos obtenido de HPRD), paralogía (de ENSEMBL), pertenencia a la misma via de señalización o coexpresión en tejido humano sano. El tipo de red más usado con el fin de predecir genes asociados a enfermedad es aquella derivada de datos de interacción, no obstante, nuestros datos demuestran que los otros 3 tipos de redes pueden funcionar tan bien o incluso mejor que ésta para este fin. A continuación hemos tratado de combinar las redes de distinta forma con el fin de mejorar su poder de predicción. Para ello hemos usado distintos algoritmos que pueden ser clasificados en dos grupos en función del momento de combinación de la información: "a priori" (aquellos métodos que combinan las puntuaciones obtenidas para cada gen en las redes independientes, en nuestro caso un clasificador Bayesiano) y "a posteriori" (la combinación de la información se hace antes de usar el algoritmo de redes, en nuestro caso hemos sumado los nodos y las aristas de las redes). De acuerdo a nuestros datos es mejor usar métodos "a priori", ya que el clasificador Bayesiano siempre tiene un menor poder predictivo que la suma de redes. Además, parece que es muy complicado obtener una suma de redes que funcione mejor, en términos de AUC, que la mejor red independiente, ya que sólo para una de las enfermedades, diabetes, hemos encontrado una combinación de redes que cumpliera con estos requisitos. También hemos observado que no existe una correlación entre el número de tipos de información biológica usados para crear la combinación de redes y su capacidad de predicción. Finalmente, hemos comprobado el poder predictivo de una de las mejores combinaciones de redes en un set de datos independiente que hemos obtenido de COSMIC. Este set de datos contiene genes mutados en, al menos, 15 muestras de cáncer colorectal y que no están presentes en nuestra base de datos. Hemos podido predecir estos genes tanto en términos de AUC como en términos de enriquecimiento de "ranking".