Por Todd Smith y Sandra Porter – Publicado en The Scientist el 1 de Diciembre de 2012 (Traducción: Nicolás Jouve)
© JAROSLAW WOJCIK, ISTOCKPHOTO.COM/ERIN LEMIEUX
Una meta importante de la medicina personalizada es poder crear planes individuales de salud para el curso de la vida, tras llevar a cabo un análisis genético individual. Estos últimos años, los avances tecnológicos han proporcionado las herramientas para hacer el estudio completo del genoma individual. Sin embargo, el hacerlo apenas nos revela cómo pueden ser de singulares los genomas individuales. Así por ejemplo, dos estudios recientes que implicaban secuenciar en profundidad los exomas [1] y genes humanos dianas de fármacos en más de 16.000 individuos, demostraron claramente que los alelos raros –los que tendrían menos de un 0,5 por ciento de frecuencia en la población- son, como grupo, bastante abundantes y tienen impacto funcional (Science, 337:64-69, 2012; 337:100-104, 2012).
Por Todd Smith y Sandra Porter – Publicado en The Scientist el 1 de Diciembre de 2012 (Traducción: Nicolás Jouve)
© JAROSLAW WOJCIK, ISTOCKPHOTO.COM/ERIN LEMIEUX
Una meta importante de la medicina personalizada es poder crear planes individuales de salud para el curso de la vida, tras llevar a cabo un análisis genético individual. Estos últimos años, los avances tecnológicos han proporcionado las herramientas para hacer el estudio completo del genoma individual. Sin embargo, el hacerlo apenas nos revela cómo pueden ser de singulares los genomas individuales. Así por ejemplo, dos estudios recientes que implicaban secuenciar en profundidad los exomas [1] y genes humanos dianas de fármacos en más de 16.000 individuos, demostraron claramente que los alelos raros –los que tendrían menos de un 0,5 por ciento de frecuencia en la población- son, como grupo, bastante abundantes y tienen impacto funcional (Science, 337:64-69, 2012; 337:100-104, 2012).
Los estudios demostraron que cada persona lleva más de 10.000 variantes- una cada 17 nucleótidos- de las cuales se puede predecir que por lo menos 300 afectan la función de la proteína que codifican. En octubre pasado, el Proyecto 1000 Genomas publicó un mapa comprensivo de la variación genética humana basada en las secuencias enteras del genoma de 1.092 voluntarios de Europa, de Asia del este, de África, y de las Américas (Nature, 491:56 – 65, 2012). Esta investigación demuestra la importancia de las variantes raras en la salud y enfermedad, señalando que las variantes comunes son compartidas en diferentes poblaciones, mientras que las variantes raras son únicas en grupos étnicos específicos.
Nuestra apreciación respecto a esta unicidad nos ha abierto los ojos sobre los defectos de las herramientas y los métodos de uso general para cuantificar e interpretar la variación genética. De hecho, muchos de los estudios que se habían hecho en la última década para identificar y medir los efectos del cambio genético fueron realizados con herramientas que había sido diseñadas bajo la suposición de que las diferencias genéticas son raras. Las herramientas más comunes se basan todas ellas en una sola secuencia del genoma humano de referencia que fue desvelado hace casi 10 años. Aunque se han llevado a cabo varias mejoras desde entonces, ésta sola secuencia se sigue utilizando todavía como la referencia estándar con la cual se comparan el resto de las secuencias.
La gran mayoría de los estudios sobre la expresión génica y de su asociación a genomas completos (GWAS), se basan en los análisis de microarrays que fueron diseñados usando esta sola secuencia humana cómo referencia. Para rastrear las asociaciones entre los cambios genéticos individuales y los rasgos observables, se pegan unidos a un soporte de vidrio unas secuencias prueba de ADN, fragmentos cortos de ADN, basados en la secuencia de referencia. Puesto que comúnmente se piensa que es probable que ocurra un solo cambio en una posición dada en una secuencia de la ADN, el análisis utiliza típicamente apenas dos fragmentos de prueba para identificar el genotipo. Si un individuo tiene una base distinta en una posición dada, o varias bases próximas, o el fragmento de prueba corresponde a una región duplicada, el genotipo de este individuo sería difícil de caracterizar y el resultado sería poco concluyente. De hecho, a principios de este año uno de nosotros (Smith) y sus colegas demostró que la mitad de las secuencias probadas con estos fragmentos de prueba –microarrays- corresponden a un tipo de variación previamente desconocida o dan resultados falsos o genotipos desconocidos. Estos genotipos han contribuido en parte a nuevos desafíos en la interpretación y reproducción de los resultados interpretar del análisis GWAS (PLOS ONE, 7:e40294, 2012).
Los análisis de Microarray no son la única herramienta de medida que da lugar a una visión excesivamente simplista de la variación genética. Otro ejemplo son los análisis del transcriptoma, en los cuales las secuencias se determinan para todos los ARN-mensajeros en una célula. Cada secuencia parcial de ARNm se identifica por la comparación con la secuencia del genoma humano de referencia. De modo similar a los microarrays, si la secuencia en la muestra es demasiado diferente de la referencia, o se alinea con una secuencia repetitiva, la identificación puede resultar confusa. Cuantos más datos se analizan más se evidencian las limitaciones del Genoma Humano originalmente secuenciado como una sola referencia
Además hay otros problemas derivados de los análisis bioinformáticos debidos a una limitada visión de la variación. Observamos que una gran cantidad de variantes publicadas para las muestras comunes de ADN eran únicas para un determinado juego de datos. Este hallazgo se debe probablemente a las diferencias en las estrategias de recogida de datos y de informática. Esto va más allá de problemas con genotipos multialélicos y cambios de una sola base nucleotídica. Los estudios de Bioinformatica también confían en medidas del desequilibrio del ligamiento (LD) – la probabilidad que dos alelos –de diferentes genes próximos entre sí- tienden a pasar juntos a la descendencia por su proximidad en el genoma. Si se eliminan las estimaciones del desequilibrio de ligamiento, dejarán de ser fiables las estimaciones de los genotipos predichos en estudios con una pequeña cantidad de muestras.
Dado que tenemos una subestimación importante de la variación individual en el genoma humano, está claro que necesita hacerse una revisión de muchas de las conclusiones de estudios anteriores. El desafío con el que nos enfrentamos es cómo utilizar esta nueva comprensión para informar sobre nuevos tipos de análisis basados en las secuencias de ADN. La realización de las metas a largo plazo de la medicina personalizada requerirá mejores recursos de referencia y mejora de los métodos estandardizados para analizarlos.
Estándares de eleccion que reflejan diversidad
Nuestro objetivo inmediato es desarrollar nuevos estándares para secuenciar ADN a gran escala. Por ejemplo, el National Institute of Standards and Technology (NIST) ha iniciado esfuerzos para estandarizar muestras de ADN para comparar las nuevas técnicas se secuenciación (NGS) y otros métodos de análisis del genotipo. Sobre todo, estos estándares deben incluir el desarrollo de mejores herramientas de referencia. ¿Debe haber secuencias múltiples de la referencia? ¿Se debe el genoma de cada individuo secuenciar y utilizar como referencia personal? Para servir esta meta y ayudar a contestar a estas preguntas, el consorcio del genoma de referencia, un consorcio multi-institucional, continúa rellenando huecos y desarrollando secuencias alternativas en regiones de la alta variabilidad. En otros esfuerzos, el FAD (US Food and Drug Administration) y el SEQC (SEquencing Quality Control Consortium) están trabajando para estandarizar los análisis que dependen de estos materiales de referencia. Específicamente, SEQC se centra en los análisis basados en las nuevas técnicas se secuenciación, que miden la expresión del gen, donde la secuenciación del ADN se utiliza para contar el número de las moléculas de RNA transcritas de un gene dado.
Desafortunadamente desarrollar estándares robustos no es la prioridad más alta para los institutos nacionales de la salud (NIH). En lugar de esto, los NIH y otras agencias de financiación continúan invirtiendo en los proyectos del alto-perfil que acentúan la recolección de datos por encima del desarrollo de infraestructuras. El proyecto ENCODE es un ejemplo. Se ha producido una ingente cantidad de datos de un número limitado de líneas celulares humanas que no tenían sus genomas secuenciados. Se deducen así todas las anotaciones funcionales de un genoma de referencia que sea muy diferente de los genomas de las líneas celulares inmortalizadas utilizadas. Mientras que tales proyectos construyen estrategias y descubren nueva biología, todavía seguimos con herramientas que no son capaces de considerar la increíble diversidad de los genomas humanos.
Para la medicina personalizada, una diagnosis basada en una comprensión incompleta de la variabilidad genómica puede dar lugar al uso de fármacos que carecen de eficacia. La pérdida de patrones de variación raros pero críticos pueden conducir a quedar sin diagnosticar determinados casos raros, con consecuencias en la esperanza de vida, coste y dolor para los individuos afectados. Mejorar ambas situaciones requiere maneras mejores y más completas de medir la variación individual. Sin una fundación genómica más fuerte, hacer su genoma individual no aportará una información precisa sobre las perspectivas de salud del curso de la vida de una persona
Todd Smithes líder senior de investigación y sus aplicaciones de PerkinElmer en Seattle, Washington. Sandra Porter es presidente de Digital World Biology, también en Seattle, en donde desarrolla los materiales educativos que utilizan los bioinformaticos para enseñar biología.
____
[1] El exoma es la parte del genoma formado por los exones, es decir, las partes codificantes de los genes que formarán parte del ARN mensajero maduro y, al ser éste traducido por la maquinaria celular, darán lugar a las proteínas. Es la parte funcional más importante del genoma y la que contribuye en mayor medida al fenotipo final de un organismo. Aproximadamente, corresponde al 1.5% del genoma humano