Como filtrar os reads mapeados com o SamTools

retirado de : Hi, You get a bam (machine readable sam ) file after mapping, and it contains information about mapped and unmapped reads. To get the unmapped reads from a bam file use : samtools view -f 4 file.bam > unmapped.sam , the output will be in sam to get the output in bam use : samtools view -b -f 4 file.bam > unmapped.bam To get only the mapped reads use the parameter 'F', which works like -v of grep and skips the alignments for a specific flag. samtools view -b -F 4 file.bam > mapped.bam From the manual ; there are different int codes you can use with the parameter 'f', based on what you want : -f INT Only output alignments with all bits in INT present in the FLAG field. INT can be in hex in the format of /^0x[0-9A-F]+/ [0] Each bit in the FLAG field is defined as: Flag Chr Description 0x0001 p the read is paired in sequencing 0x0002 P the...


Sam format: column information:

Sam format: column information: QNAME: Query name of the read or the read pair FLAG: Bitwise flag (pairing, strand, mate strand, etc.) RNAME: Reference sequence name POS: 1-Based leftmost position of clipped alignment MAPQ: Mapping quality (Phred-scaled) CIGAR: Extended CIGAR string (operations: MIDNSHP) MRNM: Mate reference name ('=' if same as RNAME) MPOS: 1-based leftmost mate position ISIZE: Inferred insert size SEQQuery: Sequence on the same strand as the reference QUAL: Query quality (ASCII-33=Phred base quality) FURTHER DETAILS OF SAM FORMAT:

quando nome do arquivo é muito grande

wget -O diamond-linux64.tar.gz " "

Tablet - uso para ver mapeamento

samtools view -b -S myalignment.sam -t myref.fa > myalignment.bam samtools sort myalignment.bam -o myalignment.sorted.bam samtools index myalignment.sorted.bam     myalignment.sorted.bam myalignment.sorted.bam.bai myref.fa

O que é o genoma

Gosto muito do livro de Matt Ridley sobre o "GENOMA" Uma das coisas que mais me chama a atenção nesse livro é como ele consegue transmitir ciência de maneira tão clara e simples! Gostaria muito de aprender a ter essa capacidade! :) Aqui escrevo um trecho sobre o que é o genoma a partir de um exemplo bem simples. Só um comentário: Acabei comprando esse livro em inglês pois essa versão estava mais barata que a em português - é... não está fácil para ninguém ;) -, portanto, vou traduzir e possivelmente erros surgirão ao longo do texto, caso alguém detecte algum erro, peço que me avisem ;) Ai vai: Imaginem que o genoma é um livro: Neste livro há 23 capítulos, chamados cromossomos Cada capítulo contém centenas de histórias chamadas genes Em cada história há parágrafos, chamados exons , que são interrompidos por propagandas chamados íntrons E cada parágrafo é feito de palavras chamadas de códons Cada palavra está escrita em letras chamadas bases Há mais de um bil...

Para selecionar a partir de blast2lca use por exemplo: -i nrxUame-Purple_samples.results -k Bacteria | more para somente bacterias ou não use o -k e pegue tudo que não for planta se quiser apenas o nome das reads (este deve ser o caso)  use o "cut -f 1" no lugar do "more" (comando acima) []s
DIAMOND+LCA DIAMOND (version 0.3.9) was run using the following command: diamond blastx –db /ifs/mirror/diamond/nr –query < input.fastq > -v 2 –threads 16 -o < diamond.output.tsv > LCA mapper (from mtools, MEGAN5) was run using: -i < diamond.output.tsv > -f Detect -ms 50 -me 0.01 -tp 50 -gt megan/ gi_taxid_prot.bin -o <lca.output>

verificar o processo

ps -auxw | grep "programa" | less
apagar tudo até o final da linha a partir do padrão no VIM   : g /{ pattern }/ normal nd$
verificar se um programa esta rodando  ps -auxw | grep "" | less - ex "" -> programa a ser verificado se esta rodando