Все файлы, обозначенные в таблицах, можно посмотреть в рабочей директории,
указанной в задании
Входной файл
Получаемый файл
Команда
Что делает
chr8.fastqc
chr8_fastqc.zip
fastqc chr8.fastq
Контроль качества прочтений
chr8.fastq
out1.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 chr8.fastq out1.fastq TRAILING:20
Удаляем с конца нуклеотиды качеством < 20
out1.fastq
out2.fastq
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 out1.fastq out2.fastq MINLEN:50
Удаляем с конца последовательности длины < 50
out2.fastq
out2_fastq.zip
fastqc out2.fastq
Контроль качества прочтений
Per base sequence quality (до и после чистки)
Число чтений до чистки: 8367 Число чтений после чистки: 8227
С помощью программы trimmomatic были удалены нуклеотиды с качеством чтения
(меньше 20, где Q=10*lg(p), p - вероятность ошибки)
Отобраны прочтения с длиной более 50 нуклеотидов
Пропали риды с длинными усами
В результате проведенной нами небольшой чистки количество прочтений уменьшилось на 140
Стоит обратить внимание на такой параметр как Per sequence GC content;
содержание GC пар изменилось с 39 до 38 %, тем не менее, до "чистки" рядом с этим параметром стояло
предупреждение (имеются отклонения от нормального распределения содержания GC-пар в более чем 15% прочтений),
после trimmomatic процент отклонения по прочтениям уменьшился, предупреждение пропало
Вероятно, предупреждение было связано с наличием коротких прочтений, которые вносили погрешности в подсчет
распределения процентного содержания GC-пар
Мы также можем заметить предупреждение напротив параметра Per base sequence content
Они возникает, если различие между А и Т, либо G и C больше 10% в какой-либо позиции
Это может быть связано с ошибкой в процессе секвенирования; скорее всего, это не опосредовано
присутствием какой-либо "загрязняющей" последовательности, иначе такие неточности систематически
появлялись бы в нескольких позициях, а не только в одной, как в нашем случае
Per base sequence content (до и после чистки)
Sequence Length Distribution
Этот модуль генерирует график, показывающий распределение размеров ридов в анализируемом файле
Предупреждение возникает, если все прочтения имеют различную длину
В нашем случае длина ридов в большинстве случаев превышает 100 bp;
Не думаю, что в случае нашего файла такое предупреждение является серьезной проблемой, так как
данный параметр достаточно сильно зависит от качества секвенатора; так, если прибор не является
высокопроизводительным, то небольшие различия в длине ридов для него являются нормой
Переводим выравнивание ридов с референсом в бинарный формат
bamchr8.bam
sortedbam.bam
samtools sort bamchr8.bam sortedbam
Сортируем выравнивание ридов с референсом по координате в референсе начала чтения
sortedbam.bam
sortedbam.bam.bai
samtools index sortedbam.bam
Индексируем отсортированный .bam файл
Рассмотрим выдачу программы hisat2 - на геном откартировано 3227 ридов,
100% которых были непарными
8187 ридов (99.64%) выровнены ровно 1 раз
30 ридов (0.36%) выровнены 0 раз
0 ридов (0%) выровнены более 1 раза
С помощью команды
samtools depth sortedbam.bam >> cover.csv
вычислим покрытие для каждого
нуклеотида. На выходе получаем таблицу; импортируем ее в Excel и построим гистограмму
Наиболее высокие пики показывают нуклеотиды с самым высоким покрытием. Выберем один из них - 76 478 838
С помощью GenomeBrowser получаем информацию об интересующем нас нуклеотиде: Homo sapiens hepatocyte nuclear factor 4, gamma (HNF4G), mRNA
hg19 chr8: 76 320 271 - 76 479 061
Размер: 158 791
Общее число экзонов: 11
Цепь: +
chr8: q21.11
Файл с последовательностями экзонов доступен по ссылке Координаты экзона: 76 476 210 - 76 479 061 (наш нуклеотид - 76 478 838)
Создаем файл со списком отличий между референсом и ридами в .vcf
Описание трех полиморфизмов из файла *.vcf
Координата
Тип полиморфизма
В референсе
В ридах
Глубина покрытия
Качество чтения
chr8:27454785
Индель
TAATGAA
TAA
5
58.4663
chr8:116599199
Замена
T
G
45
221.999
chr8:76468309 (->76468321)
Индель
GTTTTTTTTTTTT
GTTTTTTTTTT,GTTTTTTTTT
74
120.457
Индель chr8:27454785
Замена chr8:116599199
Индель chr8:76468309
Обнаружено 100 полиморфизмов, в числе которых 5 инделей; 95 - замены (64 transitions and 31 transversions)
Среднее значение качества - 66.717
Среднее покрытие - 14.494
Глубина покрытия достаточно сильно варьируется для каждого из участков, при этом
среднее значение получается не слишком высоким
Следующий этап нашей работы - аннотация SNP
Нам необходимо проаннотировать полученные snp по 5 базам данных - refgene, dbsnp, 1000 genomes, GWAS, Clinvar
При аннотации SNP по Refgen получаем три файла - refgen.exonic_variant_function, refgen.log
(системные сообщения, информация об ошибках и комментарии), refgen.variant_function
Из файла refgen.variant_function мы понимаем, что база данных Refseq делит snp по
их локализации (exonic - 5, intergenic - 17, intronic - 60, UTR3 - 13)
Гены, в которые попали наши snp:
CASC9 17
CLU 10
HNF4G 22 (+17)
TRPS1 46
Помимимо всего прочего в файлах есть информация о синониминости (несинонимичности) замен
аминокислотных остатков
У 77 есть rs
Аннотация 1000Genomes показывает частоты аллелей в output - файле
Среднее значение частоты аллелей - 17,366 (подсчитано с помощью эксорта данных в Excel)
Также, в output - файле есть информация о характере замены (что на что было заменено - в форме гэпов и/или букв-нуклеотидов)
Также указаны координаты каждой такой замены
По аннотации Gwas видим, что 4 snp связаны с каким-либо заболеванием, либо физиологическим параметром
связь геномных признаков с фенотипическими:
Болезнь Альцгеймера (2 snp) 27456253 27456253 T C 3
27466315 27466315 T C 29
ЛВП (Липопротеины высокой плотности) 76478768 76478768 C T 134
Уровень мочевой кислоты 116599199 116599199 T G 45
ClinVar объединяет информацию о геномных вариациях (полиморфизмах), их отношении к здоровью человека
В базе данных ClinVar не было какой-либо клинической информации по интересующим нас полиморфизмам