МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

ПРАКТИКУМ №11:
Ресеквенирование. Поиск полиформизмов.

Задание №1: Описание файла с референсом

Файл состоит из первой строки, которая начинается с >, и содержит АС последовательности, информацию о том,
что это четвертая хромосома человека, информация о сборке, и последующих строк, содержащих непосредственно
последовательность хромосомы.

Задание №2: Индексация реферанса

Референс был проиндексирован с помощью программы bwa index -a bwtsw chr4.fna. Опция -а задает алгоритм, в
данном случае был выбран bwtsw (предназначен для работы с большими референсами) Выходные файлы работы
программы: chr4.fna.amb , chr4.fna.ann , chr4.fna.bwt , chr4.fna.pac , chr4.fna.sa .

Задание №3: Описание образца

В базе данных SRA был выполнен поиск "SRR10720419" и найдена следующая информация:
a. Описание образца
b. Секвенирование проводилось с помощью прибора Illumina Genome Analyzer IIx
с. Организм - источник материала: Homo sapiens
d. Стратегия секвенирования: экзомная
e. Чтения: парноконцевые
f. Ожидаемое число чтений: 41.3M

Задание №4: Проверка качества исходных чтений

Качество исходных чтений было проанализировано с помощью программы fastqc.
a. Использованые команды: fastqc SRR10720419_1.fastq.gz, fastqc SRR10720419_2.fastq.gz
b. Количество пар чтений: 41277367
c. Количество чтений у "прямых" и "обратных" чтений совпадает
d. Также оно примерно совпадает с ожидаемым числом чтений из пункта 3f, однако несколько меньше
e. Картинки из раздела Per base sequence quality для прямых и обратных чтений можно увидеть на рисунках ниже

1 2

f. Качество чтений очень хорошее, почти все медианы качества больше 38
g. Картинки из раздела Per sequence quality scores для прямых и обратных чтений можно увидеть ниже

1 2

h. На картинках выше представлено распределение качества чтений, низких показателей почти нет, больше всего подпоследовательной нашей последовательности с качеством чтений 39 i. Картинки из раздела Sequence Length Distribution для прямых и обратных чтений можно увидеть на рисунках ниже

1 2

j. Рисунки выше показывают распределение длин фрагментов в файле. В обоих случаях, больше всего фрагментов длины 75 bp

Задание №5: Фильтрация чтений

Фильтрация была произведена с помощью программы trimmomatic. Опция TRAILING:20 используется для удаления с конца чтений
нуклеотидов с качеством ниже 20 используется, а для удаления чтений с длиной меньше 50 нуклеотидов - опция MINLEN:50, для
увеличения скорости был использован параметр -threads 15, параметр -trimlog был использован для сохранения log файла trimlog_dna.
Итоговая программа выглядит так:
java -jar /usr/share/java/trimmomatic.jar PE -threads 15 -phred33
-trimlog trimlog_dna SRR10720414_1.fastq.gz SRR10720414_2.fastq.gz
output_forward_paired.fq.gz output_forward_unpaired.fq.gz
output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz
TRAILING:20 MINLEN:50

Задание №6: Проверка качества триммированных чтений

4 выходных файла trimmomatic были проанализованы с помощью команды fastqc.
a. Использованные команды: fastqc output_forward_paired.fq.gz, fastqc output_forward_unpaired.fq.gz, fastqc output_reverse_paired.fq.gz, fastqc output_reverse_unpaired.fq.gz
b. Осталось чтений (paired): 41074118, 99.51% от чтений в пункте 4b
с. Картинки из раздела Per base sequence quality для прямых и обратных чтений, paired и unpaired можно увидеть на рисунках ниже

1 2
1 2

d. Сравнение paired и unpaired чтений по Per base sequence quality: качество unpaired чтений гораздо хуже, чем paired, некоторые
блоки заходят в красную область, в paired чтениях такого нет, при этом у unpaired чтений (в отличие от paired) нет корелляции
между качеством чтений и расстоянием от начала.
e. Сравнение paired (п. 6с) и исходные чтения (п. 4е): качества paired чтений ожидаемо выше, например, ни один из блоков
в paired не попадает в желтую область, а исходные чтения попадают
f. Картинки из раздела Per sequence quality scores для прямых и обратных paired чтений можно увидеть на рисунках ниже

1 2

g. Сравнение картинки из п. 6f и из п. 4g: картинки исходных и paired чтений почти одинаковые
h. Картинки из раздела Sequence Length Distribution для прямых и обратных paired чтений можно увидеть на рисунках ниже
1 2

i. Как изменилась длина чтений посте триммирования: у исходных чтений чтений с длинной 75 было больше, чем 4.0E7, а теперь больше,
чем 3.5E7, то есть чтений стало меньше.