МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

ПРАКТИКУМ №12:
Картирование чтений

Задание №1: Картирование чтений на референсный геном

Использованная программа:
bwa mem -t 22 chr4.fna ../output_forward_paired.fq.gz
../output_reverse_paired.fq.gz > dna.sam 2> bwamem_log.txt

Описание параметров:
-t 22 - количество использованных ядер, увеличивает скорость
chr4.fna - референс
../output_forward_paired.fq.gz ../output_reverse_paired.fq.gz - файлы с триммированными чтениями
> dna.sam - перенаправление выхода в sam-файл
2> bwamem_log.txt - сохранение лог-файла

Задание №2: Анализ sam файла с выравниванием

a. Формат Sam предназначен для хранения данных биологических последовательностей, картированных на референс.
Формат SAM состоит из заголовка и раздела выравнивания. Файлы SAM можно анализировать и редактировать с помощью
программного обеспечения SAMtools.Заголовки начинаются с символа"@", который отличает их от раздела выравнивания.
Разделы выравнивания имеют 11 обязательных полей, а также переменное количество необязательных полей.

b. Описание первых 12 полей:
1. QNAME - ID
2. FLAG - Характеристики чтения в виде флагов
3. RNAME - Название референса
4. POS - Первая левая координата позиции начала картирования
5. MAPQ - Качество картирования
6. CIGAR - Информация о выравнивании чтения
7. RNEXT - Референсное название следующего чтения
8. PNEXT - Положение следующего чтения
9. TLEN - Длина выравнивания
10. SEQ - Последовательность рида
11. QUAL - Качество в кодировке ASCII

c. Размер sam-файла - 16 Гб

Задание №3: Получение и индексирование bam файла

a. Для конвертации sam-файла в bam-файл была использована команда:
samtools sort -@ 22 -o dna.bam dna.sam 2> sort_log.txt
Описание параметров:
-@ 22 задает количество ядер, ускоряет работу
-o dna.bam - имя выходного файла
2> sort_log.txt - перенаправление потока вывода в log-файл
b. Размер bam-файла 4.6 Гб
c. Индексация файла была произведена с помощью команды samtools index -@ 22 dna.bam

Задание №4: Анализ bam файла

a. Для анализа bam файла была использована команда:
samtools flagstat -@ 22 dna.bam > flags.txt
b. Путем изучения полученного файла было выяснено, что картировано 10446837 (13.13%) чтений.
Но чтений картировано в корректно картированных парах чтений всего 8177688 (10.28%).
Мне кажется, числа отличаются, поскольку какие-то чтения из полногеномного секвенирования могли
картироваться на данную хромосому случайно, а парное к ним чтение находится в другом месте.

Задание №5: Получение картированных чтений

a. Для получения чтений, картированных только на нашу хромосому, сначала было получено название хромосомы с помощью команды:
samtools faidx chr4.fna -o chr4.fai
Название - NC_000004.12
Далее была использована следующая команда:
samtools view -h dna.bam NC_000004.12 > reads_chr4.sam samtools view -bS reads_chr4.sam > reads_chr4.bam
b. К полученному bam файлу reads_chr4.bam была применена команда:
samtools flagstat -@ 22 reads_chr4.bam > reads_flags.txt.
Отсюда видно, что картировано 10446837 (88.66%) чтений, чтений картировано в корректно картированных парах чтений 8177688 (69.69%).
c. Процент картированных чтений в 5b стал больше, чем в 4b.
e. Далее были получены только правильно картированные пары чтений с помощью команды:
samtools view -f 0x2 -bS reads_chr4.bam > reads2_chr4.bam
f. Далее была использована команда: samtools flagstat -@ 22 reads2_chr4.bam > reads2_flag.txt
В файле была найдена информация: картированными оказались 100.00% чтений.
g. Из-за того, что мы получили только правильно картированные чтения логично, что остались только правильно картированные на нужную хромосому
h. Проиндексируем файл с правильными чтениями: samtools index -@ 22 reads2_chr4.bam

Задание №6: Подготовка выравнивания к поиску вариантов

a. Было выполнено маркирование дублированных чтений с помощью команды:
picard MarkDuplicates -M metrix.file.txt -I reads2_chr4.bam -O mark.bam 2> mark_log.txt
b. С помощью команды:
samtools flagstat -@ 22 mark.bam > mark_flag.txt
Был получен файл, в котором была найдена информация: парных чтений 8179905 (100%), дублированных - 585982.