Proyecto 1000 Genomes publica genomas humanos gratuitamente

Proyecto 1000 Genomes publica genomas humanos gratuitamente

Jueves 14 Jun 2012

ADNEl proyecto 1000 Genomes es uno de los más grandes en el área de la biología y está permitiendo acceder gratuitamente a más de mil genomas humanos de diversas poblaciones bajo estudio identificadas por su origen y lugar de residencia. Debido a la gran cantidad de información contenida en cada genoma humano, fue necesario establecer un sistema capaz de distribuir la información que actualmente es de aproximadamente 260 terabytes en más de 250.000 archivos.

El ADN de una persona es al menos un 99% el mismo que el de otra persona, mientras que el porcentaje restante es llamado variación genética. A través de estas se pueden explicar algunas diferencias físicas y el desarrollo de algunas enfermedades como el cáncer, asma, diabetes, etc. en ciertas personas. Las variaciones genéticas son distintas en todo el mundo, teniendo patrones similares en dentro de territorios en específico. El objetivo del proyecto 1000 Genomes es encontrar la mayoría de las variaciones genéticas que existen en las personas. Esto lo determinan estudiando el ADN de muestras de cada una de las personas que voluntariamente acceden a participar del proyecto.

Existen sitios de descarga de los datos que ya están disponibles y se actualizan constantemente a medida que el proyecto publica la información.

Como los volúmenes de información involucrados en este proyecto son muy grandes y uno de los objetivos es dejarlos disponibles para el público, se debió establecer un Centro de Coordinación de la Información entre el Instituto Europeo de Bioinformática (EBI) y el Centro Nacional de Biotecnología (NCBI, EE.UU.) para manejar el flujo de datos, almacenar los archivos de secuencia y manejar el acceso del público a través de un sitio FTP y un “navegador de genomas”.

La solución usada por el proyecto 1000 Genomes para la transferencia de archivos vía internet fue desarrollada por la empresa Aspera y utiliza un método basado en UDP que permite tener una velocidad de transferencia de 20 a 30 veces más rápida que un FTP en uso normal. De este modo, evitan el problema de enviar los discos duros físicos a empresas como Amazon para que sean ellos los que pongan los datos disponibles a través de internet en sus propios servidores. Tanto el NCBI como el EBI ya tienen sitios de descarga de los datos que ya están disponibles y se actualizan constantemente a medida que el proyecto decida publicar la información.

Actualmente, el proyecto ya ha conseguido secuenciar poco más de 1.000 genomas, pero el objetivo de todo el proyecto es secuenciar 2.500 muestras a 4X de cobertura del genoma. La mayoría de las muestras se encuentran dentro de poblaciones estudiadas de 100 personas cada una, incluyendo tres poblaciones latinas compuestas por peruanos, colombianos y puertorriqueños. Para completar el proyecto, se estima que las muestras faltantes estén disponibles en agosto de 2012.

Fuentes: Nature, 1000 Genomes Pilot Paper (PDF), Medicamentoso
Imagen: dullhunk's photostream @Flickr (CC)