Для картирования чтений на референсный геном (chr8.fna) использовалась команда bwa mem -t 10 ../chr8.fna forward_paired.fastq.gz reverse_paired.fastq.gz > 12.sam 2> log_12.txt.
a. Если открыть sam-файл, мы увидим секцию с заголовком (строчки начинаются с @) и секцию выравниваний. В последней имеется 11 обязательных полей, которые описаны ниже. В заголовке можно увидеть имя референсной последовательности, её длину, имя программы, использующуюся в терминале команду и прочее.
b. Описание первых 12 столбцов файла представлено в Таблице 1.
№ | Название столбца | Тип информации | Описание |
---|---|---|---|
1 | QNAME | String | Имя чтения |
2 | FLAG | Int | Комбинация битовых "флагов", шифрующих характеристики чтений |
3 | RNAME | String | Имя референсной последовательности, на которую картировалось чтение |
4 | POS | Int | Номер позиции первого закартированного на референс нуклеотида. Если картировать чтение не получилось, значение параметра равно нулю. |
5 | MAPQ | Int | Качество картирования |
6 | CIGAR | String | Кодировка некоторых характеристик выравнивания (есть делеция/инсерция, мэтч/мисмэтч) |
7 | RNEXT | String | Имя референсной последовательности для следующего чтения |
8 | PNEXT | Int | Значение POS для следующего чтения |
9 | TLEN | Int | В норме расстояние между начальной и конечной точкой выравнивания |
10 | SEQ | String | Выровненная последовательность |
11 | QUAL | String | Качество каждого нуклеотида (Phred) |
12 | TAGS | String, int, character, general array, real number, hexadecimal array | С 12 столбца начинаются опциональные (необязательные) поля формата TAG:TYPE:VALUE, где TYPE шифрует тип данных в VALUE. Здесь находится дополнительная информацияэ |
a. Файл 12.sam был конвертирован в менее объёмный формата .bam с помощью команды samtools sort -o 12.bam -O bam -@ 10 12.sam, где
b. Получившийся bam-файл весит около 5 гигабайт;
c. Для индексирования использовалась команда samtools index -@ 10 12.bam 12.bai, на выходе получен файл 12.bai.
a. Командой samtools flagstat -@ 10 12.bam > 12.txt был получен файл 12.txt.
b. В файле была следующая информация: всего было картировано 10639664 чтений (13.64%), 7640446 (9.80%) чтений в корректно картированных парах. Вероятно, второе число меньше из-за наличия пар чтений, в которых чтения направлены не друг к другу.
a. Для выделения только картированных на хромосому чтений использовалась команда samtools view -h 12.bam NC_000008.11 > chr8.sam. Имя хромосомы (NC_000008.11) нашёл в ещё не удалённом файле 12.sam. Далее для конвертации в bam-формат использовалась команда samtools view -bS chr8.sam > chr8.bam.
b. Затем воспользовались командой samtools flagstat -@ 10 chr8.bam > chr8.txt. Из полученного файла выяснили, что всего картировано 10639664 (87.09%) чтений, 7640446 (62.90%) картировано в правильно картированных парах чтений.
c. По сравнению с представленными в пункте 4b численными значениями ничего не изменилось, зато процент после отделения нужных нам чтений значительно вырос.
d.
e. Получим только правильно картированные пары чтений командой samtools view -f 0x2 -bS chr8.bam > proper_chr8.bam.
f. Повторим сделанное в пункте b, но с новым файлом. Команда: samtools flagstat -@ 10 proper_chr8.bam > proper_chr8.txt. Теперь картировано 100.00% (7643281) чтений, корректно картированных в правильно картированных также 100.00% (7640446).
g. По сравнению с пунктом b значение первого параметра возросло не так сильно, потому что оно изначально было довольно высоким. В то же время у второго параметра значение возрастает почти в два раза.
h. Теперь проиндексируем полученный bam-файл: samtools index -@ 10 proper_chr8.bam proper_chr8.bai
a. Команда picard MarkDuplicates -M metrix.file.txt -I proper_chr8.bam -O dubble_mark.bam отмаркировала дублированные чтения в файл dubble_mark.bam.
b. К полученному файлу применили команду samtools flagstat -@ 10 dubble_mark.bam > dubble_mark.txt, нашлось 541244 дублированных чтений.