Часть I. Анализ качества чтений. Очистка чтений

Входной файл	Получаемый файл	Команда	Что делает
chr8.fastqc	chr8_fastqc.zip	fastqc chr8.fastq	Контроль качества прочтений
chr8.fastq	out1.fastq	java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr8.fastq out1.fastq TRAILING:20	Удаляем с конца нуклеотиды качеством < 20
out1.fastq	out2.fastq	java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 out1.fastq out2.fastq MINLEN:50	Удаляем с конца последовательности длины < 50
out2.fastq	out2_fastq.zip	fastqc out2.fastq	Контроль качества прочтений

Per base sequence quality (до и после чистки)

Число чтений до чистки: 8367
Число чтений после чистки: 8227
С помощью программы trimmomatic были удалены нуклеотиды с качеством чтения
(меньше 20, где Q=10*lg(p), p - вероятность ошибки)
Отобраны прочтения с длиной более 50 нуклеотидов
Пропали риды с длинными усами
В результате проведенной нами небольшой чистки количество прочтений уменьшилось на 140

Стоит обратить внимание на такой параметр как Per sequence GC content;
содержание GC пар изменилось с 39 до 38 %, тем не менее, до "чистки" рядом с этим параметром стояло
предупреждение (имеются отклонения от нормального распределения содержания GC-пар в более чем 15% прочтений),
после trimmomatic процент отклонения по прочтениям уменьшился, предупреждение пропало
Вероятно, предупреждение было связано с наличием коротких прочтений, которые вносили погрешности в подсчет
распределения процентного содержания GC-пар

Мы также можем заметить предупреждение напротив параметра Per base sequence content
Они возникает, если различие между А и Т, либо G и C больше 10% в какой-либо позиции
Это может быть связано с ошибкой в процессе секвенирования; скорее всего, это не опосредовано
присутствием какой-либо "загрязняющей" последовательности, иначе такие неточности систематически
появлялись бы в нескольких позициях, а не только в одной, как в нашем случае

Per base sequence content (до и после чистки)

Sequence Length Distribution
Этот модуль генерирует график, показывающий распределение размеров ридов в анализируемом файле
Предупреждение возникает, если все прочтения имеют различную длину
В нашем случае длина ридов в большинстве случаев превышает 100 bp;
Не думаю, что в случае нашего файла такое предупреждение является серьезной проблемой, так как
данный параметр достаточно сильно зависит от качества секвенатора; так, если прибор не является
высокопроизводительным, то небольшие различия в длине ридов для него являются нормой

Sequence Length Distribution (до и после чистки)

Часть II. Картирование чтений

Входной файл	Получаемый файл	Команда	Что делает
chr8.fasta	mychr.*	hisat2-build chr8.fasta mychr	Индексируем референсную последовательность
out2.fastq	samchr8.sam	hisat2 -x mychr -U out2.fastq -S samchr8.sam --no-spliced-alignment --no-softclip	Строим выравнивание ридов и референса
samchr8.sam	bamchr8.bam	samtools view samchr8.sam -b >> bamchr8.bam	Переводим выравнивание ридов с референсом в бинарный формат
bamchr8.bam	sortedbam.bam	samtools sort bamchr8.bam sortedbam	Сортируем выравнивание ридов с референсом по координате в референсе начала чтения
sortedbam.bam	sortedbam.bam.bai	samtools index sortedbam.bam	Индексируем отсортированный .bam файл

Рассмотрим выдачу программы hisat2 - на геном откартировано 3227 ридов,
100% которых были непарными
8187 ридов (99.64%) выровнены ровно 1 раз
30 ридов (0.36%) выровнены 0 раз
0 ридов (0%) выровнены более 1 раза

С помощью команды

samtools depth sortedbam.bam >> cover.csv

вычислим покрытие для каждого
нуклеотида. На выходе получаем таблицу; импортируем ее в Excel и построим гистограмму

Наиболее высокие пики показывают нуклеотиды с самым высоким покрытием. Выберем один из них - 76 478 838
С помощью GenomeBrowser получаем информацию об интересующем нас нуклеотиде:
Homo sapiens hepatocyte nuclear factor 4, gamma (HNF4G), mRNA
hg19 chr8: 76 320 271 - 76 479 061
Размер: 158 791
Общее число экзонов: 11
Цепь: +
chr8: q21.11
Файл с последовательностями экзонов доступен по ссылке
Координаты экзона: 76 476 210 - 76 479 061 (наш нуклеотид - 76 478 838)

Запускаем команду

samtools depth -r chr8:76476210-76479061 sortedbam.bam >> exon_cover.csv

Для получения информации о покрытии нашего экзона. Полученную таблицу импортируем в Excel, находим
среднее покрытие экзона

Среднее покрытие экзона: 63.99
Таблица с информацией о покрытии экзона доступна по ссылке