Archive | NGS RSS feed for this section

How to extract regions with a minimum value of coverage

2 nov

One of the most important parameters in NGS analysis is coverage. Coverage (or depth) is defined as the number of times one base has been sequenced. It’s a very important parameter in variant and small indels detection and, generally, the sequencing processes are designed depending on this parameter. Last week I found with the problem that I had to retrieve the intervals with coverage greater than 30 from a alignment file in bam format. How could we do that?

You need to install samtools and bedtools in your machine. And with only one command line you can get these intervals:

samtools mpileup -B -Q 0 -d 8000 -f reference_genome.fasta alingment.bam | awk -F'\t' '{if($4>=30) print $1"\t"$2-1"\t"$2}' | mergeBed -i stdin


Firstly, with samtools program we convert the alignment bam file in pileup format. Secondly, awk helps us to extract only the positions with coverage greater than 30 and print them in bed format. As bed format is 0-based, we must print the position less 1 as start of the interval in each position. Finally, with bedtools, function mergeBed, we merge overlapping repetitive elements into a single entry.

That’s it.

Pipeline de análisis de exoma

18 oct

Buscando la solución a un problema de incompatibilidad de dos programas muy utilizados en análisis de NGS, me he encontrado con este intersante hilo en Seqanswers. Hay gente cuya amabilidad y ganas de compartir no dejan de sorprenderme. Un ejemplo es el documento en PDF que comparte un usuario de Seqanswers muy amablemente en este hilo. Es una guía bastante completa de cómo realizar un análisis de exoma, por dónde empezar y qué programas utilizar. Es un buen comienzo para ir probando parámetros y poder comparar con otros programas. Si lo prefieres en HTML, ya lo han colgado en la wiki.

Fuente: Exome sequencing analysis manual.

Páginas de ayuda para análisis de datos de NGS

26 sep

A la hora de empezar a analizar cualquier tipo de datos, el primer paso siempre debe ser empezar buscando qué han hecho aquellas personas que se han visto en la misma situación que tú. Para ello, puede recurrir a la bibliografía y a foros especializados. Cuando se trata de biología molecular, casi todo está ya descrito. En muchas ocasiones al realizar análisis de datos de las plataformas de Ultrasecuenciación o Next Generation Sequencing (NGS) la cosa se puede complicar. La mayoría del software utilizado en este tipo de análisis suelen estar creados con licencia open source. Con el tiempo estos programas se han ido perfeccionando y cada vez es menor el número de errores que dan. Pero, como todo es tan nuevo, quizás encuentres algún error que no esté descrito. ¿Qué puedes hacer ante esta situación? La página Seqanswers es la que mejor soluciones facilita en este tipo de análisis. Está dividida en varias secciones. Podrás encontrar desde un foro donde realizar consultas, organizado por plataforma de secuenciación y diferentes tipos de consultas y encontrar las soluciones que estás buscando, hasta una wiki con los conceptos más importantes. Y, una de las mejores secciones, todos los programas que se utilizan para analizar este tipo de datos. Esta sin duda es la página más completa. Como segunda opción siempre tienes que tener en cuenta a Biostar. Aunque en lo que respecta a programas y conceptos no es tan completa, siempre puedes encontrar soluciones para aquellos scripts que tengas que hacer. También es muy aconsejable para encontrar herramientas web, como pueden ser las bases de datos, y cómo sacarle el mayor rendimiento. Y, gracias a que la mayoría de las herramientas suelen estar creadas por gente que trabaja en instituciones públicas, no dudes nunca en escribirles personalmente a los autores, generalmente la respuesta suele ser rápida y concisa.

Aunque el mundo de la investigación es muy competitivo, la gente suele colaborar mucho para resolver cuestiones tanto de software como problemas conceptuales  en este tipo de secuenciación. Esta es una de las grandes ventajas de que todo sea nuevo. La gran desventaja es que no todo está descrito y siempre te encontrarás problemas nuevos y errores que te costarán resolver. Esa es una de las razones por las que me gusta este trabajo.

Fuentes: Foto

Samsung invierte en bioinformática

25 ago

Es indudable que el crecimiento exponencial de la capacidad de secuenciación de los aparatos de NGS abre puertas a nuevos negocios. Samsung, una de las compañías más conocidas de telefonía, sonido e imagen, ha visto oportunidades de ganar dinero en el campo de la bioinformática y ha invertido en ella. Y, como no podía ser de otra forma, ofrece servicios en la nube para realizar análisis de datos generados por los Illumina y los SOLiD. Y, aunque sus servicios no son muy numerosos, se centran en RNA-Seq y resecuenciación, sí son los más utilizados y demandados. Quizás la novedad más importante es que han desarrollado un sistema propio que, siempre según sus palabras, aumenta por diez la velocidad de transferencia por FTP. Todos los usuarios acostumbrados a trabajar con datos de estas máquinas, saben que una de las limitaciones es su tamaño. Esto dificulta y enlentece su transferencia, procesado y análisis. Simplemente por ese camino puedan marcar diferencias. Estaremos atentos a su evolución.

Fuente: Bio-IT-World

Secuenciada la bacteria E. coli causante de varias muertes en Alemania

3 jun

El BGI es la apuesta más fuerte del gobierno de China en el ámbito de la secuenciación masiva y una de las más importantes en el ámbito de la biotecnología. Por dar algunos datos, disponen de 128 Illumina HiSeq 2000 (a parte de los 454), trabajan 1500 bioinformáticos y son capaces de generar más secuencias de alta calidad de ADN que todas las instituciones públicas de los EEUU (más información sobre sus objetivos y fundación).

Como relatan mediante una noticia en su página web, han secuenciado la cepa de la bacteria de E. coli causante de la muerte de al menos 17 personas en varios países europeos. Y para ello han utilizado la plataforma Ion Torrent, recientemente adquirida por Life Technologies, una plataforma denominada de tercera generación por su rapidez y longitud de lecturas. Al realizar la anotación, han descubierto que es una nueva cepa más virulenta, ya que ha adquirido nuevas resistencias contra varios antibióticos, por lo que su tratamiento se dificulta. Además, también ha adquirido mediante transferencia genética horizontal secuencias específicas que causan colitis hemorrágicas y síndromes urémicos hemolíticos.

Todo aquel que pueda y quiera aportar nuevas anotaciones y participar en el análisis lo puede hacer, ya que han puesto al alcance del mundo científico las secuencias resultantes, tanto en su servidor FTP como en el repositorio del NCBI con el código SRA SRA037315.1. .

Este es un ejemplo claro de la aplicación de las nuevas tecnologías de secuenciación masiva y una muestra más del potencial de esta empresa.

Fuente: Kevin’s blog