В манифесте анаконды не укажут имена
Тех, кто видел свет жиронды из окна.
Кобыла и трупоглазые жабы, "Будущее вечно"
$ head out.sam @SQ SN:NC_000010.11 LN:133797422 @PG ID:bwa PN:bwa VN:0.7.17-r1188 CL:bwa mem -t 10 bwa/chr10.fna dna_reads/trim_p1.fastq.gz dna_reads/trim_p2.fastq.gz SRR10720412.2 77 * 0 0 * * 0 0 GCTGAGTGATGGAGGGGGATAAGTCTTCTCGATAATAAACCTTCCCCAGGCCATCGGTCGTGTCCAAGTCCGCCA GGGD@F>EEBDDFFDDEEDEGGEEGGBGGFGEGBBGDGDDGGGGGGEDGGGEFВот, что обозначают поля:?E GIGGEGIIGIEGBEGEEEEEGFFFFICC#CCB?=AB AS:i:0 XS:i:0 SRR10720412.3 141 * 0 0 * * 0 0 TGTGTTCCTTTTGCTTTGTNGTGTCTCCTGAGCAACCGCCNNTNNNNACAGTAAACATATTTTCTTTAATTATTA GEGEGIGIHHDIHIGFFFB#C=CAAIIIGIBHIIHEFCEF##?####498A=?AAIII IIE774#####8>##7889#4##<<7><#######0<>::@<=GEGIFIGHFBDGGDDIHIHI AS:i:0 XS:i:0 SRR10720412.6 77 * 0 0 * * 0 0 CATTTTTATTGCATTTTTGCAGTTNNTNCCATTTATTGAAAATNACAATTGTAACAATTTTCTTA HHHHHHEHHHHHDHHHHHHH>@???BBGHHEHEFB#EDBBBBHEHHHHFHHHHHHHH AS:i:0 XS:i:0 SRR10720412.6 141 * 0 0 * * 0 0 ATGGTTTCTTTACAGAANNNNNNTCNNCACCNTNNNTTCGNNNNNNNNNCTGTTCGAGGTGGAGTGACAGGACGT GGGGFIIIIIIIIHI88######59##?<:<#<###<8;<#########657559DDGG@GFED@DDEBE@;FA< AS:i:0 XS:i:0
$ cat flagstat.txt 79756299 + 0 in total (QC-passed reads + QC-failed reads) 0 + 0 secondary 49945 + 0 supplementary 0 + 0 duplicates 10002438 + 0 mapped (12.54% : N/A) 79706354 + 0 paired in sequencing 39853177 + 0 read1 39853177 + 0 read2 7625834 + 0 properly paired (9.57% : N/A) 8526868 + 0 with itself and mate mapped 1425625 + 0 singletons (1.79% : N/A) 0 + 0 with mate mapped to a different chr 0 + 0 with mate mapped to a different chr (mapQ>=5)Видно, что хоть как-то картировалось 10 002 438 чтений (12.54% от общего числа), а правильно парно картировалось только 7 625 834 (9.57%). Эти числа отличаются, потому что правильным считается картирование, при котором чтения направлены друг к другу, и располагаются недалеко. Но может случиться так, что скартируется только одно из двух чтений. Или, например, у какого-то из чтений будет альтернативное место, куда можно картироваться. В общем, можно придумать много ситуаций, когда эти числа будут отличаться.
$ samtools flagstat view_chr10.bam > flagstat2.txt $ cat flagstat2.txt 11428063 + 0 in total (QC-passed reads + QC-failed reads) 0 + 0 secondary 49945 + 0 supplementary 0 + 0 duplicates 10002438 + 0 mapped (87.53% : N/A) 11378118 + 0 paired in sequencing 5689059 + 0 read1 5689059 + 0 read2 7625834 + 0 properly paired (67.02% : N/A) 8526868 + 0 with itself and mate mapped 1425625 + 0 singletons (12.53% : N/A) 0 + 0 with mate mapped to a different chr 0 + 0 with mate mapped to a different chr (mapQ>=5)Итого, картировалось 10002438 чтения (87.53% от всех оставшихся в этом файле чтений), из них правильно парно картировалось 7625834 (67.02%). Абсолютные числа не изменились по сравнению с предыдущими, хотя доли картированных чтений от общего числа чтений в файле увеличилась. По какой-то причине существуют некартированные чтения, которым почему-то причислена хромосома. У некоторых из таких стоит флаг 117, в одном из пунктов которого написано, что последовательность, комплементарная паре этого чтения, картировалась, что может объяснять, почему чтению дали хромосому. Но есть и флаг 69, который просто означает, что ничего никуда не картировалось.
$ samtools flagstat paired_chr10.bam > flagstat3.txt $ cat flagstat3.txt 7627753 + 0 in total (QC-passed reads + QC-failed reads) 0 + 0 secondary 1919 + 0 supplementary 0 + 0 duplicates 7627753 + 0 mapped (100.00% : N/A) 7625834 + 0 paired in sequencing 3812917 + 0 read1 3812917 + 0 read2 7625834 + 0 properly paired (100.00% : N/A) 7625834 + 0 with itself and mate mapped 0 + 0 singletons (0.00% : N/A) 0 + 0 with mate mapped to a different chr 0 + 0 with mate mapped to a different chr (mapQ>=5)Всего в этом файле 7627753 картированных чтения (100%), а правильно парно картированных 7625834 (100%). Я понятия не имею, почему эти числа различаются, но оба 100%. Разница между ними 1919, что совпадает с числом под пунктом supplementary, но я не знаю, что это такое. В любом случае, число правильно картированных из этого файла совпадает с этим же числом из предыдущего файла.