Por Ed Yong – Publicado en The Scientist el 5 de Septiembre de 2012 (traducido por N. Jouve)
Un proyecto masivo que implica a centenares de científicos sugiere que muy poco -sí algo- del genoma humano es realmente no funcional. Haciendo click en la imagen se accede al servidor del proyecto ENCODE.
En 2001, el Proyecto Genoma Humano produjo una lectura completa del ADN de la especie humana. Pero los investigadores tenían poca idea sobre cómo se utilizaban, controlaban y organizaban las bases As, Gs, Cs y Ts (Adenina, Guaninas, Citosinas y Timinas), y mucho menos cómo codifican para una función determinada, como por ejemplo la respiración en un ser humano.
Por Ed Yong – Publicado en The Scientist el 5 de Septiembre de 2012 (traducido por N. Jouve)
Un proyecto masivo que implica a centenares de científicos sugiere que muy poco -sí algo- del genoma humano es realmente no funcional. Haciendo click en la imagen se accede al servidor del proyecto ENCODE.
En 2001, el Proyecto Genoma Humano produjo una lectura completa del ADN de la especie humana. Pero los investigadores tenían poca idea sobre cómo se utilizaban, controlaban y organizaban las bases As, Gs, Cs y Ts (Adenina, Guaninas, Citosinas y Timinas), y mucho menos cómo codifican para una función determinada, como por ejemplo la respiración en un ser humano.
La laguna del conocimiento acaba de ser reducida. Un proyecto internacional masivo llamado ENCODE (Encyclopedia of DNA Elements) ha catalogado la misión de cada base nucleotídica dentro del genoma, de modo que es considerablemente más del 1.5 por ciento la parte de genoma implicada en las instrucciones reales para la producción de las proteínas. La investigación, un esfuerzo de 10 años de un equipo internacional de 442 científicos, demuestra que el resto del genoma –la mayoría no codificante- está relacionado con los “elementos funcionales.”
“El genoma ya no es un gran vacío,” dijo Shyam Prabhakar del instituto del genoma de Singapur´-no implicado en el estudio-. “Está densamente implicado en tareas de actividad bioquímica.” “Casi cada nucleotido se asocia a una función de una clase o de otra, y ahora sabemos donde están, qué los une, cuáles son sus asociaciones, y más,” agregó Tom Gingeras, uno de los investigadores senior implicado en uno de los trabajos. Los resultados se publican hoy (5 de septiembre), en más de 30 artículos científicos en muy diferentes revistas.
Los investigadores vienen reconociendo desde hace tiempo que algo del ADN no codificante tiene probablemente una función, y recientemente han salido a la luz muchos ejemplos sólidos. Por otra parte, muchos creían que muchas de estas secuencias eran, de hecho, “basura”. El proyecto ENCODE sugiere algo diferente.
Los investigadores han encontrado que muchas de las piezas no codificantes del genoma humano contienen los sitios donde las proteínas se pueden anclar, afectando a la expresión de genes próximos y distantes. Otras regiones no codificantes se transcriben en moléculas de ARN que nunca se traducen en proteínas. Otros afectan al modo en cómo se curva y se empaqueta el ADN. En suma, según ENCODE, estas regiones no son basura y el 80 por ciento del genoma tiene cierta función bioquímica.
El 20 por ciento restante puede no ser tampoco basura, según Ewan Birney, el líder de coordinación del proyecto. Él explica que mientras que ENCODE ha estudiado 147 tipos distintos de células, hay unas dos mil en total. Si se examinan otros tipos de la células, pueden emerger más funciones en una enorme proporción. Según Birney, “es posible que del 80 por ciento se pase a un 100 por ciento”. “Realmente no tenemos regiones grandes de ADN redundante. La metáfora del ADN basura ya no es útil”.
Las implicaciones son enormes, desde redefinir qué es un “gen” a proporcionar nuevas pistas hacia la comprensión de enfermedades y cómo el genoma trabaja en tres dimensiones. De acuerdo con Prabhakar: “Hay un filón para abrir muchas investigaciones a partir de ahora”. “Independientemente de que parte del genoma se estudie, en cada proyecto particular, ENCODE aportará pistas que beneficiarán a todos”.
Birney añadió que “por supuesto, hay mucho por hacer todavía. Pienso que va a llevar un siglo completar todos los detalles”, “la recopilación completa va a ser la ciencia del siglo.”
Por números
Los investigadores ya sabían que el 1.5 por ciento del genoma codifica para las proteínas. ENCODE ha encontrado que un 8.5 por ciento codifica para regiones donde las proteínas se unen al ADN, regulando probablemente la transcripción (=síntesis de ARN) de los genes. Y, dado que ENCODE no ha mirado cada tipo posible de célula o cada posible proteína que se une al ADN, este dato es probablemente conservador. Birney estima que la proporción total del genoma que crea una proteína o se pega al ADN es de alrededor del 20 por ciento.
El resto de los elementos funcionales en el análisis de ENCODE cubre otras clases de secuencias que se pensó carecían de funcionalidad, como los intrones. Birney señala que “la idea de que los intrones carecen de peso no es verdad”. Incluso algunos pedazos de secuencias de ADN repetidas pequeñas que tienen la capacidad de copiarse y se ven típicamente como parásitos -son probablemente funcionales, conteniendo a menudo las secuencias donde las proteínas pueden ligarse al ADN para influenciar la actividad de los genes próximos. Quizás su expansión por el genoma representa no la invasión de un parásito, sino una manera de expandir la regulación de la expresión genética. “Los parásitos podrían ser derribados”, ha dicho Birney.
Birney señala que muchos escépticos discuten sobre la proporción exacta –el proyecto ENCODE estima que el 80 por ciento del genoma sirve para algo- y sobre la definición de “funcional.” Pero, añade, “no importa por donde se corte, lo que importa es que hoy conocemos más de lo que sabíamos.”
¿Qué es un gen?
El punto de vista más simple de un gen es que es una pieza de ADN que se transcribe para la síntesis de una proteína. Pero los datos de ENCODE, esta definición pierde su sentido. Hay una gran cantidad de transcritos (ARN), probablemente más que nadie hubiera pensado, que conectan dos genes previamente no relacionados. Esto significa que los límites para esos genes se tienen que ensanchar, y los huecos entre ellos encogerse o desaparecer.
Gingeras dice que este espacio “intergénico” se ha contraído por un factor de cuatro. “Una región que una vez fue llamada Gen X se une ahora al gen Y”. De acuerdo con esto Gingeras piensa que ya no tiene sentido pensar en un gen como punto específico en el genoma, o como su unidad básica. El lugar para ese honor pasa a ocuparlo cada región de transcripción a ARN. Dice Gingeras que “El átomo del genoma es la transcripción, que es la unidad básica afectada por la mutación y la selección.”
Nuevas enfermedades
En la década pasada, los genetistas han mantenido una corriente de estudios, aparentemente sin fin, sobre la asociación de marcas de enfermedades en el genoma (GWAS), y han lanzado una larga lista de sitios polimórficos de una sola base (SNPs) relacionados con el riesgo de patologías bajo diversas condiciones. El equipo de ENCODE ha tenido en cuenta todos estos datos de GWAS y ha localizado e identificado todos estos SNPs.
Los investigadores encontraron que apenas el 12 por ciento de los SNPS están dentro de áreas de codificación de proteínas. También han demostrado que en comparación con los SNPs al azar, los asociados a enfermedades tienen un 60 por ciento mayor de probabilidad de localizarse en regiones no codificantes pero identificadas por ENCODE como funcionales, especialmente en regiones promotoras y estimuladoras (enhancers) de la expresión genética. Esto sugiere que muchas de estas variantes estén controlando la actividad de diversos genes, y proporciona muchos datos de peso para entender cómo afectan el riesgo de enfermedad. “Era demasiado bueno para ser verdadero,” dijo Birney. “Literalmente, estaba en el cuarto [cuando consiguieron el resultado] y fue: Sí!”
Los investigadores de ENCODE también encontraron nuevos acoplamientos entre SNPs asociados a enfermedades y los elementos específicos del ADN. Por ejemplo, encontraron cinco SNPs que aumentan el riesgo de la enfermedad de Crohn, y que son reconocidos por un grupo de factores de la transcripción llamados GATA2. En opinión de Birney “esto es algo que los biólogos que trabajan en la enfermedad de Crohn no tenían en su radar”… “repentinamente hemos hecho una asociación imparcial entre una enfermedad y un pieza de biología básica.”
“Ahora estamos trabajando con los datos de diversas enfermedades en los que han estado trabajando los biólogos. En cierto sentido, ENCODE está trabajando en el genoma hacia fuera, mientras que los estudios de GWAS está trabajando hacia adentro de las enfermedades”. Hasta ahora, el equipo ha identificado 400 puntos calientes del genoma en que merece la pena investigar.
El genoma tridimensional
Escribir el genoma como una cadena de letras invita a cometer un error común: que es considerar el genoma como una entidad de dos dimensiones, lineal. En realidad, el ADN gira alrededor de las proteínas llamadas histonas, dispuestas como las cuentas de un collar. Éstas después se retuercen, se doblan y se colocan de una manera tridimensional intrincada. De esta manera, las partes distantes del genoma pueden realmente llegar a ser vecinos físicos, y pueden afectar la actividad unas a otras.
Job Dekker, un bioinformático de la Medical School de la Universidad de Massachussetts, ha utilizado datos de ENCODE para analizar estas interacciones de largo alcance a través de apenas un 1 por ciento del genoma en tres tipos diferentes de células, y ha descubierto más de 1.000 de ellas. “Tengo el gusto de decir que nada en el genoma tiene sentido excepto si se mira en 3D,” dijo Dekker, y agregó que “la disponibilidad de los datos de ENCODE es “realmente un lujo para el futuro de la ciencia del genoma”.
Compartiendo los datos
Los nuevos resultados de ENCODE son extensos. Han sido publicados en 30 artículos centrales en Nature, Genome Biology y Genome Research, así como en una ciénaga de artículos secundarios en Science, Cell y otras revistas. Y todos los datos están a la libre disposición del público.
Las páginas de diarios impresos son un depósito pobre para una caterva tan extensa de datos. Debido a ello, el equipo de ENCODE ha ideado un nuevo modelo de publicación. Han creado el portal ENCODE, en el que los interesados pueden escoger uno de 13 asuntos de interés, tales como secuencias intensificadoras (enhancers), y seguirlos en los “hilos especiales” que relacionan todos los párrafos relevantes de las 30 publicaciones principales. De este modo Birney señala que “más que leerse los 30 papeles, para que cada uno encuentre lo que le interesa, nosotros le desentrañamos lo que le interesa leer”.
El equipo también ha construido lo que él llama una máquina virtual, un programa descargable que incluye todo el código que los científicos de ENCODE han utilizado para analizar sus datos. Cualquier investigador puede descargar datos casi-crudos y reproducir por sí mismos cualquiera de los análisis publicados. Es lo último en transparencia.
Birney ha señalado que “Con esto se consigue una enorme confianza de que los analistas de los datos han hecho las cosas correctamente. Con la máquina virtual, usted puede reproducir de nuevo absolutamente, paso a paso, lo qué se hizo para conseguir los resultados. Pienso que debe ser el estándar para el futuro”.