Archive by Author

¿Compartirías tu genoma?

14 mar

Foto: mqciencia

En el post de esta semana que he publicado en el blog de piratas de la ciencia hablamos sobre la secuenciación del exoma, de cómo podrá afectar a nuestras vidas y del caso de Manuel Corpas, un investigador que ha compartido su secuenciación de exoma con la comunidad científica.

Cuando se presentaron los primeros resultados del proyecto genoma humano a principios de siglo, pocos podían imaginar que durante 2011, apenas 10 años después, se secuenciarían un total de 5.000 genomas, y que la previsión para 2012 fuera de 30.000. Por supuesto, tampoco se iban a imaginar que aquel proyecto cuyo presupuesto era de 90.000 millones de dólares y se tardó 13 años, ahora se intente abaratar a 1000$ y en un tiempo de dos semanas. El avance es más que significativo.

Desde que trabajo con datos de plataformas de ultrasecuenciación, no dejo de asombrarme todos los días. Unos días, me sorprende el gran potencial de diagnóstico que tenemos en nuestras manos; otros, me asusta la falta de privacidad a la que podemos estar abocados. De lo que sin duda estoy convencido es que todo este rapísimo desarrollo tecnológico nos lleva hacia un cambio total en el análisis y utilización de nuestro genoma sin vuelta a atrás.

Seguir leyendo…

Línea de comandos para contar posiciones de un archivo BED

7 mar

Cuando trabajas con datos genómicos, es muy habitual encontrarse con archivos BED, como por ejemplo en análisis de exoma. Si quieres conocer el número total de bases detalladas en el archivo, lo puedes calcular con esta simple línea de comandos:

j=0; for i in `awk -F'\t' '{print $3-$2}' file.bed`; do let j=$j+$i; echo $j; done | tail -1

En resumen, se resta la tercera columna a la segunda, hay que tener en cuenta que el archivo BED es 0-based por lo que no hace falta restarle una posición, y se van acumulando los valores en la variable $j. Cuando acabamos de recorrer todo el fichero, seleccionamos la última línea.

 

¿Nos sobra ADN?

25 ene

Esta es mi entrada de hoy en el blog de piratas de la ciencia. Es la segunda. La primera fue: Investigar jugando.

 

DNA basura

A todos los que estudiamos genética hace algunos años, nos enseñaron que la mayor parte del ADN de muchos organismos no tiene ninguna función conocida. De hecho, el nombre de  ”ADN basura” (“junk DNA” en inglés) con el que lo denominaron algunos grandes científicos, entre ellos el mismísimo Francis Crick, es totalmente descriptivo de lo que se esperaba de él. Incluso se pensaba que ni siquiera se expresaba en las células. Esta explicación chocó de frente con lo que yo siempre había pensado: “los seres vivos son máquinas con engranajes casi perfectos y optimizados durante miles de años”. ¿Cómo iba a dejar un organismo que la inmensa mayoría de la información que le caracteriza no sirviera para nada?

Gracias a las investigaciones llevadas a cabo en los últimos años sobre estas regiones, ahora sabemos que no es así. En los últimos años se está sustituyendo el nombre de “ADN basura” por el de “ADN no codificante“.  El término “no codificante” significa que no van a dar lugar a proteínas. Podemos encontrar gran variedad de unidades reguladoras, como los microARNs, que son moléculas de ARN con una importancia crucial en la regulación de muchos procesos, copias de  genes que han perdido su función, llamados pseudogenes, o zonas repetitivas en tándem. En definitiva, multitud de elementos reguladores y elementos cuyas funciones son completamente desconocidas y que regulan las zonas consideradas clásicamente como “importantes”.

Si nos centramos en el genoma humano, entre el 98.5 y el 98% es ADN no codificante. Es decir, la inmensa mayoría de nuestro genoma no se traduce a proteína y no sabemos asignarle ninguna función conocida. Con la secuenciación del genoma humano a principios de siglo, pensábamos que entraríamos en la fase de la proteómica, era el momento de definir todas las proteínas y conocer su función. En parte sí fue así, pero el problema se complicó con estos nuevos elementos. El horizonte de la regulación de la expresión genética se alejó y era como si hubiéramos vuelto a empezar el camino de su entendimiento.

En definitiva, cuanto más sabemos acerca de cómo está estructurada la información genética, más preguntas brotan sobre su estructura y más se complica entender cómo se comporta tanto a nivel funcional como estructural. Aunque se están haciendo muchos esfuerzos por entender estas regiones (como ejemplo, el número de artículos relacionados con los microRNAs: 14.613), aun estamos lejos de conocer todos los procesos en los que están implicados. Quedan muchas incógnitas por resolver. ¿Qué tendrá más importancia, los elementos funcionales o sus reguladores? ¿Cuántos de ellos regularán el mismo proceso? ¿Cuántos nuevos elementos reguladores aparecerán? ¿Habrá un cambio sustancial en cómo entendemos el genoma y su función?

Fuente de la imagen aquí.

—————–

Versió en valencià

A tots els que estudiàrem genètica fa alguns anys, ens ensenyaren que la major part de l’ADN de molts organismes no té cap funció coneguda. De fet, el nom “ADN escombraire” (“junk DNA” en anglès) amb el que denominaren alguns grans científics, entre ells el mateix Francis Crick, és totalment descriptiu del que s’espera d’ell. Inclús es pensava que ni tan sols s’expressava en les cèl·lules. Esta explicació va xocar de front amb el que jo havia pensat sempre: “els éssers vius són màquines amb engranatges quasi perfectes i optimitzats durant milers d’anys”. Cóm anava a deixar un organisme que la immensa majoria de la informació que el caracteritza no servira per res?

Gràcies a les investigacions dutes a terme en els últims anys sobre estes regions, ara sabem que no és així. En els últims anys s’està substituint el nom “d’ADN escombraire” pel de “ADN no codificant“. El terme “no codificant” significa que no van a donar lloc a proteïnes. Podem trobar una gran varietat d’unitats reguladores, com els microARNs, que són molècules d’ARN amb una importància crucial en la regulació de molts processos, còpies de gens que han perdut la seua funció, anomenats pseudogens, o zones repetitives en tàndem. En definitiva, multitud d’elements reguladors i elements les funcions dels quals són completament desconegudes i que regulen les zones considerades clàssicament com “importants”.

Si ens centrem en el genoma humà, entre el 98.5 i el 98% és ADN no codificant. És a dir, la immensa majoria del nostre genoma no es tradueix a proteïna i no sabem assignar-li cap funció coneguda. Amb la seqüenciació del genoma humà a principis de segle, pesàvem que entraríem en la fase de la proteòmica, era el moment de definir totes les proteïnes i conèixer la seua funció. En part si fou així, però el problema es va complicar amb estos nous elements. L’horitzó de la regulació de l’expressió genètica s’allunyà i era com si haguérem tornat a començar el camí del seu enteniment.

En definitiva, quant més sabem sobre cóm està estructurada la informació genètica, més preguntes brollen sobre la seua estructura i més es complica entendre cóm es comporta tant a nivell funcional com estructural. Encara que s’estan fent molts esforços per entendre estes regions (com exemple, el nombre d’articles relacionats amb els microRNAs: 14.613), encara estem lluny de conèixer tots els processos en els que estan implicats. Queden moltes incògnites per resoldre. Què tindrà més importància, els elements funcionals o els seus reguladors? Quants d’ells regularan el mateix procés? Quants nous elements reguladors apareixeran? Hi haurà un canvi substancial en cóm entenem el genoma i la seua funció?

Hoy es un día triste

25 nov

Hoy es un día triste. Más de un centenar de compañer@s del Centro de Investigación Príncipe Felipe no han venido a trabajar. Gente que ama la ciencia, que le gusta la innovación y han dedicado muchos años de su vida a intentar explicar procesos y mecanismos biológicos, simplemente con el objetivo de mejorar la vida de los demás. Gente que ha dedicado horas de sueño, energía vital y muchísimos esfuerzos solamente a mejorar el mundo que conoce. Pero nuestro país es así, ellos son de los primeros en pagar las consecuencias de la mala gestión. Y es un día triste porque la realidad nos ha golpeado a todos. Las cosas están mal, pero estarán peor. Y, lamentablemente, este no parece ser el único ERE en un centro de investigación. Y no nos podemos quedar parados, hay que actuar e intentar que no vuelva a pasar. ¿Qué podemos hacer? Explicar a la gente qué hacemos, para qué sirve investigar y por qué no tenemos otro camino que la inversión en la investigación y en la innovación para mejorar nuestras vidas. Ellos no lo quieren ver, pero es la única salida.

No a los recortes en invesitgación! No al retroceso social!

Un momento de completa felicidad

13 nov

Tenía la piel de gallina y estaba abrumado. Su ruina y matrimonio destrozado ya no importaban. No era como él pensaba, sino como nunca había imaginado. Podía ver y sentir todas las ondas que viajaban a su alrededor: la luz de aquella lámpara oxidada, el calor del radiador, los colores de la habitación, los ladridos del perro, TODAS! Billones de ondas le rodeaban, y chocaban contra él, confirmando la dualidad que tanto le había costado interiorizar. Era una persona completamente feliz. Ahora solo quería descansar. Se levantó y, cansadísimo, no fue capaz de evitar la atracción de aquella fuente de luz tan vibrante. Al tocarla, recordó las palabras de su padre: “Ten cuidado con este viejo cable que no tiene toma tierra”. Ese fue su último pensamiento. Su cuerpo se desplomó y con él se desvanecieron su sonrisa y las respuestas a los principios más básicos de la física.

Este fue el microrrelato que presenté para el concurso de microrrelatos de Feelsynapsis.

Fuente de la imagen.

How to extract regions with a minimum value of coverage

2 nov

One of the most important parameters in NGS analysis is coverage. Coverage (or depth) is defined as the number of times one base has been sequenced. It’s a very important parameter in variant and small indels detection and, generally, the sequencing processes are designed depending on this parameter. Last week I found with the problem that I had to retrieve the intervals with coverage greater than 30 from a alignment file in bam format. How could we do that?

You need to install samtools and bedtools in your machine. And with only one command line you can get these intervals:

samtools mpileup -B -Q 0 -d 8000 -f reference_genome.fasta alingment.bam | awk -F'\t' '{if($4>=30) print $1"\t"$2-1"\t"$2}' | mergeBed -i stdin


Firstly, with samtools program we convert the alignment bam file in pileup format. Secondly, awk helps us to extract only the positions with coverage greater than 30 and print them in bed format. As bed format is 0-based, we must print the position less 1 as start of the interval in each position. Finally, with bedtools, function mergeBed, we merge overlapping repetitive elements into a single entry.

That’s it.

Pipeline de análisis de exoma

18 oct

Buscando la solución a un problema de incompatibilidad de dos programas muy utilizados en análisis de NGS, me he encontrado con este intersante hilo en Seqanswers. Hay gente cuya amabilidad y ganas de compartir no dejan de sorprenderme. Un ejemplo es el documento en PDF que comparte un usuario de Seqanswers muy amablemente en este hilo. Es una guía bastante completa de cómo realizar un análisis de exoma, por dónde empezar y qué programas utilizar. Es un buen comienzo para ir probando parámetros y poder comparar con otros programas. Si lo prefieres en HTML, ya lo han colgado en la wiki.

Fuente: Exome sequencing analysis manual.

Páginas de ayuda para análisis de datos de NGS

26 sep

A la hora de empezar a analizar cualquier tipo de datos, el primer paso siempre debe ser empezar buscando qué han hecho aquellas personas que se han visto en la misma situación que tú. Para ello, puede recurrir a la bibliografía y a foros especializados. Cuando se trata de biología molecular, casi todo está ya descrito. En muchas ocasiones al realizar análisis de datos de las plataformas de Ultrasecuenciación o Next Generation Sequencing (NGS) la cosa se puede complicar. La mayoría del software utilizado en este tipo de análisis suelen estar creados con licencia open source. Con el tiempo estos programas se han ido perfeccionando y cada vez es menor el número de errores que dan. Pero, como todo es tan nuevo, quizás encuentres algún error que no esté descrito. ¿Qué puedes hacer ante esta situación? La página Seqanswers es la que mejor soluciones facilita en este tipo de análisis. Está dividida en varias secciones. Podrás encontrar desde un foro donde realizar consultas, organizado por plataforma de secuenciación y diferentes tipos de consultas y encontrar las soluciones que estás buscando, hasta una wiki con los conceptos más importantes. Y, una de las mejores secciones, todos los programas que se utilizan para analizar este tipo de datos. Esta sin duda es la página más completa. Como segunda opción siempre tienes que tener en cuenta a Biostar. Aunque en lo que respecta a programas y conceptos no es tan completa, siempre puedes encontrar soluciones para aquellos scripts que tengas que hacer. También es muy aconsejable para encontrar herramientas web, como pueden ser las bases de datos, y cómo sacarle el mayor rendimiento. Y, gracias a que la mayoría de las herramientas suelen estar creadas por gente que trabaja en instituciones públicas, no dudes nunca en escribirles personalmente a los autores, generalmente la respuesta suele ser rápida y concisa.

Aunque el mundo de la investigación es muy competitivo, la gente suele colaborar mucho para resolver cuestiones tanto de software como problemas conceptuales  en este tipo de secuenciación. Esta es una de las grandes ventajas de que todo sea nuevo. La gran desventaja es que no todo está descrito y siempre te encontrarás problemas nuevos y errores que te costarán resolver. Esa es una de las razones por las que me gusta este trabajo.

Fuentes: Foto

Samsung invierte en bioinformática

25 ago

Es indudable que el crecimiento exponencial de la capacidad de secuenciación de los aparatos de NGS abre puertas a nuevos negocios. Samsung, una de las compañías más conocidas de telefonía, sonido e imagen, ha visto oportunidades de ganar dinero en el campo de la bioinformática y ha invertido en ella. Y, como no podía ser de otra forma, ofrece servicios en la nube para realizar análisis de datos generados por los Illumina y los SOLiD. Y, aunque sus servicios no son muy numerosos, se centran en RNA-Seq y resecuenciación, sí son los más utilizados y demandados. Quizás la novedad más importante es que han desarrollado un sistema propio que, siempre según sus palabras, aumenta por diez la velocidad de transferencia por FTP. Todos los usuarios acostumbrados a trabajar con datos de estas máquinas, saben que una de las limitaciones es su tamaño. Esto dificulta y enlentece su transferencia, procesado y análisis. Simplemente por ese camino puedan marcar diferencias. Estaremos atentos a su evolución.

Fuente: Bio-IT-World

Secuenciada la bacteria E. coli causante de varias muertes en Alemania

3 jun

El BGI es la apuesta más fuerte del gobierno de China en el ámbito de la secuenciación masiva y una de las más importantes en el ámbito de la biotecnología. Por dar algunos datos, disponen de 128 Illumina HiSeq 2000 (a parte de los 454), trabajan 1500 bioinformáticos y son capaces de generar más secuencias de alta calidad de ADN que todas las instituciones públicas de los EEUU (más información sobre sus objetivos y fundación).

Como relatan mediante una noticia en su página web, han secuenciado la cepa de la bacteria de E. coli causante de la muerte de al menos 17 personas en varios países europeos. Y para ello han utilizado la plataforma Ion Torrent, recientemente adquirida por Life Technologies, una plataforma denominada de tercera generación por su rapidez y longitud de lecturas. Al realizar la anotación, han descubierto que es una nueva cepa más virulenta, ya que ha adquirido nuevas resistencias contra varios antibióticos, por lo que su tratamiento se dificulta. Además, también ha adquirido mediante transferencia genética horizontal secuencias específicas que causan colitis hemorrágicas y síndromes urémicos hemolíticos.

Todo aquel que pueda y quiera aportar nuevas anotaciones y participar en el análisis lo puede hacer, ya que han puesto al alcance del mundo científico las secuencias resultantes, tanto en su servidor FTP como en el repositorio del NCBI con el código SRA SRA037315.1. .

Este es un ejemplo claro de la aplicación de las nuevas tecnologías de secuenciación masiva y una muestra más del potencial de esta empresa.

Fuente: Kevin’s blog