Ресеквенирование. Поиск полиморфизмов у человека

Практикум 12

1. Картирование чтений на референсный геном

Для картирования чтений на референсный геном (chr8.fna) использовалась команда bwa mem -t 10 ../chr8.fna forward_paired.fastq.gz reverse_paired.fastq.gz > 12.sam 2> log_12.txt.

-t 10 задаёт число работающих ядер (я очень устал ждать);
> 12.sam — перенаправление результата в файл;
2> log_12.txt — перенаправление для сохранения логов.

2. Анализ sam файла с выравниванием

a. Если открыть sam-файл, мы увидим секцию с заголовком (строчки начинаются с @) и секцию выравниваний. В последней имеется 11 обязательных полей, которые описаны ниже. В заголовке можно увидеть имя референсной последовательности, её длину, имя программы, использующуюся в терминале команду и прочее.

b. Описание первых 12 столбцов файла представлено в Таблице 1.

Таблица 1. описание первых 12 столбцов тела файла

№	Название столбца	Тип информации	Описание
1	QNAME	String	Имя чтения
2	FLAG	Int	Комбинация битовых "флагов", шифрующих характеристики чтений
3	RNAME	String	Имя референсной последовательности, на которую картировалось чтение
4	POS	Int	Номер позиции первого закартированного на референс нуклеотида. Если картировать чтение не получилось, значение параметра равно нулю.
5	MAPQ	Int	Качество картирования
6	CIGAR	String	Кодировка некоторых характеристик выравнивания (есть делеция/инсерция, мэтч/мисмэтч)
7	RNEXT	String	Имя референсной последовательности для следующего чтения
8	PNEXT	Int	Значение POS для следующего чтения
9	TLEN	Int	В норме расстояние между начальной и конечной точкой выравнивания
10	SEQ	String	Выровненная последовательность
11	QUAL	String	Качество каждого нуклеотида (Phred)
12	TAGS	String, int, character, general array, real number, hexadecimal array	С 12 столбца начинаются опциональные (необязательные) поля формата TAG:TYPE:VALUE, где TYPE шифрует тип данных в VALUE. Здесь находится дополнительная информацияэ

3. Получение и индексирование bam файла

a. Файл 12.sam был конвертирован в менее объёмный формата .bam с помощью команды samtools sort -o 12.bam -O bam -@ 10 12.sam, где

-o 12.bam задаёт имя файла, в который запишется результат;
-O bam задаёт формат файла (bam);
-@ 10 задаёт число участвующих в процессе ядер;
12.sam — исходный файл.

b. Получившийся bam-файл весит около 5 гигабайт;

c. Для индексирования использовалась команда samtools index -@ 10 12.bam 12.bai, на выходе получен файл 12.bai.

4. Анализ bam файла

a. Командой samtools flagstat -@ 10 12.bam > 12.txt был получен файл 12.txt.

b. В файле была следующая информация: всего было картировано 10639664 чтений (13.64%), 7640446 (9.80%) чтений в корректно картированных парах. Вероятно, второе число меньше из-за наличия пар чтений, в которых чтения направлены не друг к другу.

5. Получение картированных чтений

a. Для выделения только картированных на хромосому чтений использовалась команда samtools view -h 12.bam NC_000008.11 > chr8.sam. Имя хромосомы (NC_000008.11) нашёл в ещё не удалённом файле 12.sam. Далее для конвертации в bam-формат использовалась команда samtools view -bS chr8.sam > chr8.bam.

b. Затем воспользовались командой samtools flagstat -@ 10 chr8.bam > chr8.txt. Из полученного файла выяснили, что всего картировано 10639664 (87.09%) чтений, 7640446 (62.90%) картировано в правильно картированных парах чтений.

c. По сравнению с представленными в пункте 4b численными значениями ничего не изменилось, зато процент после отделения нужных нам чтений значительно вырос.

e. Получим только правильно картированные пары чтений командой samtools view -f 0x2 -bS chr8.bam > proper_chr8.bam.

f. Повторим сделанное в пункте b, но с новым файлом. Команда: samtools flagstat -@ 10 proper_chr8.bam > proper_chr8.txt. Теперь картировано 100.00% (7643281) чтений, корректно картированных в правильно картированных также 100.00% (7640446).

g. По сравнению с пунктом b значение первого параметра возросло не так сильно, потому что оно изначально было довольно высоким. В то же время у второго параметра значение возрастает почти в два раза.

h. Теперь проиндексируем полученный bam-файл: samtools index -@ 10 proper_chr8.bam proper_chr8.bai

6. Подготовка выравнивания к поиску вариантов

a. Команда picard MarkDuplicates -M metrix.file.txt -I proper_chr8.bam -O dubble_mark.bam отмаркировала дублированные чтения в файл dubble_mark.bam.

b. К полученному файлу применили команду samtools flagstat -@ 10 dubble_mark.bam > dubble_mark.txt, нашлось 541244 дублированных чтений.