MOMICa Multi-Omics Pipeline for data analysis, integration and interpretation

  1. Laura Madrid Márquez
Dirixida por:
  1. Cristina Rubio Escudero Director
  2. Beatriz Pontes Balanza Director
  3. María Eugenia Sáez Goñi Director

Universidade de defensa: Universidad de Sevilla

Ano de defensa: 2022

Tipo: Tese

Resumo

El éxito y la adaptación masiva de técnicas de high-throughput en las ciencias ómicas ha impulsado la biología de sistemas, ofreciendo un escenario excepcional para derivar conocimiento biológico significativo a través de la integración de los componentes de los sistemas vivos y, en particular, de los seres humanos. La plataforma de software desarrollada durante esta tesis, MOMIC, representa un esfuerzo por reunir protocolos y mejores prácticas para el análisis de datos, llenando el vacío de herramientas potentes capaces de combinar datos de diferentes niveles moleculares. MOMIC ha sido validado extensamente con diversos conjuntos de datos recopilados durante el proyecto financiado por la InnovativeMedicine Initiative (IMI) ADAPTED, un proyecto internacional para descifrar el papel de la apolipoproteína E (APOE) en la enfermedad de Alzheimer, la principal causa de demencia en todo el mundo. Las pipelines incluidas en MOMIC están escritas en lenguaje R y Bash, desarrolladas como Jupyter notebooks sobre JupyterHub y todo empaquetado con Docker. Se distribuye como un archivo docker-compose que contiene las instrucciones necesarias para crear automáticamente un servidor JupyterHub con el código fuente y todas las bibliotecas y software de terceros necesarios. MOMIC actualmente compila protocolos para whole genome SNP (GWAS), expresión de ARNm (tanto array como RNAseq) y proteómica, así como meta-análisis y análisis integrativo para combinar datos de di↵erentes estudios y niveles moleculares. Análisis de enriquecimiento y técnicas de visualización han sido desarrollados también para facilitar la interpretación de resultados. Cada uno de los protocolos propuestos se desarrollan en diferentes plantillas de Jupyter que guían al usuario a través de las tareas de preprocesamiento y transformación de los datos, y realización del análisis en particular. Este software es fácilmente personalizable, permitiendo al usuario final modificar el código fuente para adecuarlo a sus necesidades. Por otro lado, y sirviendo como forma de validación de MOMIC, se ha llevado a cabo una intensa investigación con esta plataforma sobre la enfermedad de Alzheimer, una de las formas más comunes de demencia, que actualmente afecta a 35 millones de personas en todo el mundo. El alelo 4 de la apolipoproteína E (APOE) es el principal factor de riesgo para la enfermedad de Alzheimer de inicio tardío (late-onset AD, LOAD), aunque su papel en la patogénesis de la enfermedad sigue siendo un misterio. El consorcio ADAPTED, en el cual participé activamente en el análisis de datos, tenía como objetivo una mejor comprensión de los efectos específicos de APOE. Dentro de este proyecto, hemos analizado e integrado datos de múltiples tecnologías ómicas derivadas de plasma y tejido cerebral de pacientes con Alzheimer y sujetos de control estratificados por haplotipo APOE (APOE2, APOE3 y APOE4). Concretamente, se realizaron y combinaron sistemáticamente estudios de asociación del genoma completo (GWAS), con ARNm diferencial (bulk y single-nuclei) y análisis de expresión de proteínas con el objetivo de identificar señales consistentes en diferentes niveles moleculares.