Metilación diferencial en el genoma humano y su asociación con la transcripción
- Lebrón Aguilar, Ricardo
- José Lutgardo Oliver Jiménez Director/a
- Michael Hackenberg Codirector/a
Universidad de defensa: Universidad de Granada
Fecha de defensa: 09 de julio de 2019
- Francisco Perfectti Álvarez Presidente/a
- Inmaculada López Flores Secretario/a
- Francisca Martinez Real Vocal
- Pedro A. Bernaola Galván Vocal
- Pedro María Carmona Sáez Vocal
Tipo: Tesis
Resumen
Resumen: Un ser humano se compone de más de 400 tipos celulares, los cuales difieren en el conjunto específico de genes que transcriben, pese a tener la misma secuencia genómica. Las diferencias entre tipos celulares radican en la información epigenética específica que acompaña al genoma y en los factores de transcripción presentes en la célula. En células humanas adultas, la metilación de la citosina ocurre fundamentalmente en sitios CpG y es probablemente la marca epigenética más importante, ya que contribuye a la regulación de la transcripción, se mantiene estable a lo largo del linaje celular y se modifica durante el establecimiento del destino celular. Según el paradigma tradicional, la metilación en el promotor está asociada con la represión de la transcripción, si bien existen casos en los que se asocia con la activación de la transcripción o en los que la transcripción es independiente de la metilación. Por otra parte, el efecto de la metilación sobre la regulación de la transcripción no se limita a los promotores, sino que otras regiones como los potenciadores y el cuerpo génico también están implicadas. Desde hace más de una década, es posible detectar el nivel de metilación de cada citosina del genoma, gracias a la aparición de una técnica de secuenciación masiva conocida como Whole-Genome Bisulfite Sequencing (WGBS). Sin embargo, existen fuentes de error que afectan a la fiabilidad de los resultados obtenidos, provocando detecciones erróneas en el nivel de metilación de algunas citosinas e incluso pérdidas de información en ciertas regiones. Debido a estos problemas, muchos investigadores optan por promediar los niveles de metilación de los sitios CpG dentro de las regiones de interés, suponiendo que los errores se compensarán entre sí y sacrificando la alta resolución que ofrece esta técnica. Sin embargo, la metilación promedio de una región no siempre es relevante e incluso puede llevar a conclusiones erróneas. Se ha descrito recientemente que solo el 16,6% de los sitios CpG en promotores ejercen un efecto sobre la transcripción cuando cambia su metilación. Esto pone de manifiesto la necesidad de desarrollar métodos que permitan una detección lo más fiable posible de los niveles de metilación de cada citosina. Se estableció como primer objetivo de esta Tesis Doctoral diseñar e implementar un protocolo de obtención de mapas de metilación, a partir de lecturas de WGBS, para intentar resolver todos los problemas conocidos: i) eliminando posiciones con baja calidad o que se han introducido durante la preparación de la biblioteca, así como lecturas duplicadas, ii) corrigiendo problemas derivados del alineamiento de las lecturas, iii) descartando posiciones y lecturas afectadas por sesgos en la metilación y iv) distinguiendo entre sustituciones C/T y citosinas no metiladas. Durante el desarrollo de este protocolo, se descubrió un tipo de sesgo ocasionado por el uso de nuevos modelos de ensamblado genómico. Las dos últimas versiones del ensamblado del genoma humano incluyen haplotipos alternativos, que tratan de recoger las variaciones estructurales y de secuencia de distintas poblaciones o etnias humanas, para evitar que las lecturas procedentes de estos haplotipos alineen incorrectamente en otras regiones del genoma. Sin embargo, no se había evaluado si esta inclusión podría acarrear algún problema. En esta Tesis Doctoral, se describe por primera vez que el uso de los nuevos modelos de ensamblado provoca la pérdida de lecturas procedentes de loci polimórficos, como consecuencia de un incremento en el porcentaje de lecturas con alineamiento ambiguo. Para recuperar estas lecturas y asignarlas al ensamblado consenso, se diseñó una estrategia de alineamiento en dos etapas: i) todas las lecturas se enfrentan al ensamblado completo y ii) aquellas cuyo alineamiento ha resultado ambiguo durante la primera etapa se enfrentan a una versión del ensamblado sin haplotipos alternativos. Finalmente, se reúnen las lecturas con alineamiento único procedentes de ambos alineamientos, las cuales se utilizarán en posteriores etapas del protocolo. Una vez el protocolo estuvo maduro, se decidió implementarlo como un programa de código abierto, que recibió el nombre de MethFlow. El flujo de trabajo de este programa parte de lecturas de WGBS en formato FASTQ y finaliza con la obtención de mapas de metilación, atravesando por diversas etapas de tratamiento de sesgos y contaminaciones en las que se utilizan programas de terceros combinados con código propio. Las etapas más importantes son el alineamiento en dos etapas, en la que se utiliza Bismark siguiendo la estrategia antes descrita, y la detección de los niveles de metilación a partir de los alineamientos corregidos, en la que se utiliza MethylExtract por ser capaz de distinguir sustituciones C/T de citosinas no-metiladas. Uno de los mayores problemas a los que se enfrenta hoy en día la comunidad científica es la falta de reproducibilidad de los resultados. Para garantizar esta reproducibilidad, la arquitectura de MethFlow se diseñó con base en: i) contenedores generados a partir de un fichero de configuración, en el que se indica la versión de cada programa, su proceso de instalación y de configuración, y ii) un sofisticado framework para pipelines complejas, que ofrece un control y un registro exhaustivo de los procesos ejecutados. Por último, se dotó a MethFlow de una estructura modular, de manera que más tarde se pudieran añadir módulos que desempeñen tareas relacionadas, como analizar cambios en la metilación o su asociación con la transcripción. Una vez se dispuso de una herramienta adecuada para estudiar los niveles de metilación de citosinas individuales, se planteó la hipótesis de que, dependiendo del contexto genómico en que se produzca y del tipo de factores de transcripción que intervengan, la metilación puede contribuir a la regulación positiva o negativa de la transcripción o no tener efecto. Para poner a prueba esta hipótesis fue necesario: i) obtener una colección de mapas de metilación humanos que recogiese el mayor número posible de tipos celulares y de individuos, ii) caracterizar las diferencias de metilación debidas al tipo celular y al individuo y iii) estudiar la asociación con la transcripción de los cambios de metilación en sitios CpG individuales y su posible impacto sobre elementos reguladores de la transcripción. Los proyectos Roadmap Epigenomics, ENCODE y Enhancing GTEx disponen de conjuntos públicos de lecturas de WGBS para un amplio abanico de muestras humanas. Utilizando MethFlow, se obtuvieron los mapas de metilación para 86 muestras humanas, procedentes de 52 tipos celulares de 29 individuos. De 51 de las 86 muestras se obtuvieron también los perfiles de transcripción a través de ENCODE DATA. Estos mapas de metilación y perfiles de transcripción resultaron fundamentales para caracterizar los cambios de metilación en el genoma humano y su asociación con la transcripción. Cada tipo celular posee un patrón de metilación característico, en parte heredado de la célula madre que le precede en su linaje y en parte modificado durante el proceso de diferenciación celular. De igual manera, un mismo tipo celular puede presentar ciertas diferencias de metilación entre individuos debido a factores genéticos y ambientales. Cabe esperar que ambos tipos de variabilidad en la metilación tengan distintas implicaciones biológicas. Para estudiar la variabilidad de la metilación, se decidió seguir una estrategia de comparación de las muestras por pares y posteriormente seleccionar aquellos cambios de metilación que fuesen característicos del tipo celular o del individuo. Se desarrolló un método de detección de CpGs diferencialmente metilados (DMCs) basado en el test exacto de Fisher y se incorporó a MethFlow como módulo. A continuación, se definieron dos tipos de DMCs: i) DMCs intra-individuales, cuya metilación varía entre diferentes tipos celulares de un mismo individuo, y ii) DMCs inter-individuales, cuya metilación varía entre individuos para un tipo celular dado. Una vez obtenidos tantos conjuntos de DMCs como parejas fue posible formar siguiendo estas dos definiciones, se definieron sendos conjuntos estrictos de DMCs intra-individuales y DMCs inter-individuales: i) para cada muestra, se seleccionaron aquellos DMCs comunes a todas sus comparaciones por pares (intra-individuales o inter-individuales, según proceda) y ii) se reunieron en un único conjunto todos los DMCs seleccionados. A continuación, fue necesario diseñar un método para estudiar la riqueza en DMCs de un conjunto de elementos genómicos dado. Puesto que la distribución de los sitios CpG en el genoma no es aleatoria, se definió la riqueza como el cociente entre el porcentaje de sitios CpG que son DMCs dentro del conjunto de elementos genómicos y el porcentaje de sitios CpG que son DMCs fuera del mismo. Tras aplicar estos métodos y definiciones a los mapas de metilación previamente obtenidos, se encontró que 3.303.077 (12,19%) y 329.974 (1,22%) de los sitios CpG del genoma humano son, respectivamente, DMC intra-individuales y DMC inter-individuales. Los principales elementos genómicos relacionados con la regulación de la transcripción (promotores, potenciadores y sitios de unión a factores de transcripción) no presentan diferencias destacables en DMCs intra-individuales y DMCs inter-individuales. Sin embargo, se encontró que las regiones de cromatina abierta están enriquecidas en DMCs intra-individuales, pero empobrecidas en DMCs inter-individuales. Los promotores son pobres en DMCs, mientras que los potenciadores son ricos, lo cual sugiere que la mayoría de cambios de metilación (tanto entre tipos celulares como entre individuos) ocurren en potenciadores. Los sitios de unión a factores de transcripción también son ricos en DMCs, independientemente del tipo de factor de transcripción del que se trate. Por otra parte, la proporción de DMCs disminuye a medida que decrece la distancia al sitio de inicio de la transcripción más próximo y aumenta a medida que decrece la distancia al sitio de fin de la transcripción más próximo. Como ya se ha mencionado, solo el 16,6% de los sitios CpG en promotores ejercen un efecto sobre la transcripción cuando cambia su metilación. Recientemente, se han descrito los llamados “semáforos CpG” (CpG-TLs), los cuales son sitios CpG individuales cuyo nivel de metilación está asociado con la tasa de transcripción de un gen cercano. Estos marcadores biológicos son muy adecuados para poner a prueba la hipótesis de que el signo de la asociación entre la metilación y la transcripción depende del contexto genómico en que se produce la metilación y del tipo de factores de transcripción implicados. Otros autores habían detectado CpG-TLs en el genoma humano, utilizando el coeficiente de correlación de Spearman y seleccionando solo aquellos resultados con asociación negativa. Sin embargo, este test es sensible a los valores atípicos. Para reducir este problema y aumentar la fiabilidad de los resultados, en esta Tesis Doctoral se desarrolló un método de detección de CpG-TLs utilizando una combinación del coeficiente de correlación de Spearman y el test de Kruskal-Wallis. También se distinguieron dos clases de CpG-TLs: i) rojos, cuando la asociación es negativa, y ii) verdes, cuando la asociación es positiva. Este método está disponible como módulo de MethFlow. Tras aplicar estos métodos y definiciones a los mapas de metilación y perfiles de transcripción previamente obtenidos, se encontró que la cantidad de CpG-TLs verdes es casi el doble que la de los CpG-TLs rojos: 126.959 (0,49%) y 66.746 (0,26%), respectivamente, de los sitios CpG del genoma humano. Los promotores y potenciadores son ricos en CpG-TLs, tanto rojos como verdes. Esto sugiere que ambos disponen de mecanismos para activar o reprimir la transcripción vía metilación, probablemente debido a diferentes combinaciones de sitios de unión a factores de transcripción. Mientras que los sitios de unión a factores de transcripción con mayor afinidad por sitios no metilados son ricos en CpG-TLs rojos y verdes, los sitios de unión a factores de transcripción con mayor afinidad por sitios metilados son pobres en CpG-TLs rojos y ricos en CpG-TLs verdes. Este segundo tipo de factores de transcripción son fundamentales en el desarrollo y algunos son capaces de reclutar enzimas que remodelan la metilación. En cuanto a su distribución en torno a los genes, la proporción de CpG-TLs verdes disminuye a medida que decrece la distancia al sitio de inicio de la transcripción, mientras que la proporción de CpG-TLs rojos aumenta. La base de datos dedicada a la metilación NGSmethDB contiene una amplia colección de mapas de metilación para diferentes especies, tipos celulares e individuos. Con el fin de optimizar el almacenamiento y consulta del gran volumen de datos producidos a lo largo de esta Tesis Doctoral, entre los que se incluyen mapas de metilación, de DMCs y de CpG-TLs, se decidió rediseñar por completo esta base de datos. Para agilizar las comparaciones entre muestras, se optó por migrar los datos al sistema de bases de datos MongoDB y almacenarlos en una estructura jerárquica de documentos JSON (un formato estándar que permite intercambiar datos etiquetados y jerarquizados entre distintos lenguajes de programación), donde: i) cada ensamblado posee su propia base de datos, ii) cada cromosoma posee su propia colección de documentos JSON, iii) cada sitio CpG posee su propio documento JSON y iv) cada subdocumento contiene un tipo de información biológica (metilación, metilación diferencial o asociación con la transcripción). En el caso de los mapas de metilación, cada subdocumento se divide en tres niveles: i) el individuo, ii) la muestra y iii) el tipo de dato. Se implementaron varias vías de acceso, comparación y visualización de los datos contenidos en la NGSmethDB, entre las que destacan: i) su acceso programático mediante el protocolo HTTPS a través de un servidor RESTful API y ii) su conectividad con UCSC Genome Browser a través de Track Hubs. En esta Tesis Doctoral se ha mejorado notablemente la fiabilidad en la detección de los niveles de metilación de las citosinas individuales a partir de lecturas de WGBS, tomando en cuenta todas fuentes de error conocidas en la actualidad. Esto ha permitido poner a prueba la hipótesis de que el signo de la asociación entre la metilación y la transcripción depende del contexto genómico en que se produce la metilación y del tipo de factores de transcripción implicados. A la vista de los resultados obtenidos, no ha sido posible refutar esta hipótesis. Un hallazgo inesperado ha sido que la asociación positiva entre la metilación y la transcripción parece ser más frecuente de lo que previamente se había descrito, llegando incluso a ser más frecuente que los casos con asociación negativa. En relación a esto, los sitios de unión a factores de transcripción con mayor afinidad por sitios metilados son ricos en CpG-TLs verdes pero pobres en CpG-TLs rojos. Estas asociaciones positivas podrían deberse a un mecanismo de regulación de la transcripción hasta ahora desconocido, pero también es probable que en realidad se trate de casos en los que la hidroximetilación se asocia positivamente con la transcripción, ya que la técnica WGBS es incapaz de discriminar entre metilación e hidroximetilación. En futuros estudios, se deberían utilizar las técnicas OxBS-seq o TAB-seq para tratar de esclarecer la verdadera naturaleza de los CpG-TLs verdes.