Ресеквенирование. Поиск полиморфизмов у человека

Практикум 12


1. Картирование чтений на референсный геном

Для картирования чтений на референсный геном (chr8.fna) использовалась команда bwa mem -t 10 ../chr8.fna forward_paired.fastq.gz reverse_paired.fastq.gz > 12.sam 2> log_12.txt.

  • -t 10 задаёт число работающих ядер (я очень устал ждать);
  • > 12.sam — перенаправление результата в файл;
  • 2> log_12.txt — перенаправление для сохранения логов.
2. Анализ sam файла с выравниванием

a. Если открыть sam-файл, мы увидим секцию с заголовком (строчки начинаются с @) и секцию выравниваний. В последней имеется 11 обязательных полей, которые описаны ниже. В заголовке можно увидеть имя референсной последовательности, её длину, имя программы, использующуюся в терминале команду и прочее.

b. Описание первых 12 столбцов файла представлено в Таблице 1.

Таблица 1. описание первых 12 столбцов тела файла
Название столбца Тип информации Описание
1 QNAME String Имя чтения
2 FLAG Int Комбинация битовых "флагов", шифрующих характеристики чтений
3 RNAME String Имя референсной последовательности, на которую картировалось чтение
4 POS Int Номер позиции первого закартированного на референс нуклеотида. Если картировать чтение не получилось, значение параметра равно нулю.
5 MAPQ Int Качество картирования
6 CIGAR String Кодировка некоторых характеристик выравнивания (есть делеция/инсерция, мэтч/мисмэтч)
7 RNEXT String Имя референсной последовательности для следующего чтения
8 PNEXT Int Значение POS для следующего чтения
9 TLEN Int В норме расстояние между начальной и конечной точкой выравнивания
10 SEQ String Выровненная последовательность
11 QUAL String Качество каждого нуклеотида (Phred)
12 TAGS String, int, character, general array, real number, hexadecimal array С 12 столбца начинаются опциональные (необязательные) поля формата TAG:TYPE:VALUE, где TYPE шифрует тип данных в VALUE. Здесь находится дополнительная информацияэ
3. Получение и индексирование bam файла

a. Файл 12.sam был конвертирован в менее объёмный формата .bam с помощью команды samtools sort -o 12.bam -O bam -@ 10 12.sam, где

  • -o 12.bam задаёт имя файла, в который запишется результат;
  • -O bam задаёт формат файла (bam);
  • -@ 10 задаёт число участвующих в процессе ядер;
  • 12.sam — исходный файл.

b. Получившийся bam-файл весит около 5 гигабайт;

c. Для индексирования использовалась команда samtools index -@ 10 12.bam 12.bai, на выходе получен файл 12.bai.

4. Анализ bam файла

a. Командой samtools flagstat -@ 10 12.bam > 12.txt был получен файл 12.txt.

b. В файле была следующая информация: всего было картировано 10639664 чтений (13.64%), 7640446 (9.80%) чтений в корректно картированных парах. Вероятно, второе число меньше из-за наличия пар чтений, в которых чтения направлены не друг к другу.

5. Получение картированных чтений

a. Для выделения только картированных на хромосому чтений использовалась команда samtools view -h 12.bam NC_000008.11 > chr8.sam. Имя хромосомы (NC_000008.11) нашёл в ещё не удалённом файле 12.sam. Далее для конвертации в bam-формат использовалась команда samtools view -bS chr8.sam > chr8.bam.

b. Затем воспользовались командой samtools flagstat -@ 10 chr8.bam > chr8.txt. Из полученного файла выяснили, что всего картировано 10639664 (87.09%) чтений, 7640446 (62.90%) картировано в правильно картированных парах чтений.

c. По сравнению с представленными в пункте 4b численными значениями ничего не изменилось, зато процент после отделения нужных нам чтений значительно вырос.

d.

e. Получим только правильно картированные пары чтений командой samtools view -f 0x2 -bS chr8.bam > proper_chr8.bam.

f. Повторим сделанное в пункте b, но с новым файлом. Команда: samtools flagstat -@ 10 proper_chr8.bam > proper_chr8.txt. Теперь картировано 100.00% (7643281) чтений, корректно картированных в правильно картированных также 100.00% (7640446).

g. По сравнению с пунктом b значение первого параметра возросло не так сильно, потому что оно изначально было довольно высоким. В то же время у второго параметра значение возрастает почти в два раза.

h. Теперь проиндексируем полученный bam-файл: samtools index -@ 10 proper_chr8.bam proper_chr8.bai

6. Подготовка выравнивания к поиску вариантов

a. Команда picard MarkDuplicates -M metrix.file.txt -I proper_chr8.bam -O dubble_mark.bam отмаркировала дублированные чтения в файл dubble_mark.bam.

b. К полученному файлу применили команду samtools flagstat -@ 10 dubble_mark.bam > dubble_mark.txt, нашлось 541244 дублированных чтений.


Ссылки для себя на будущее