Часть I. Анализ качества чтений. Очистка чтений
Входной файл |
Получаемый файл |
Команда |
Что делает |
chr8.fastqc |
chr8_fastqc.zip |
fastqc chr8.fastq |
Контроль качества прочтений |
chr8.fastq |
out1.fastq |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 chr8.fastq out1.fastq TRAILING:20 |
Удаляем с конца нуклеотиды качеством < 20 |
out1.fastq |
out2.fastq |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 out1.fastq out2.fastq MINLEN:50 |
Удаляем с конца последовательности длины < 50 |
out2.fastq |
out2_fastq.zip |
fastqc out2.fastq |
Контроль качества прочтений |
Per base sequence quality (до и после чистки)
 |
 |
Число чтений до чистки: 8367
Число чтений после чистки: 8227
С помощью программы trimmomatic были удалены нуклеотиды с качеством чтения
(меньше 20, где Q=10*lg(p), p - вероятность ошибки)
Отобраны прочтения с длиной более 50 нуклеотидов
Пропали риды с длинными усами
В результате проведенной нами небольшой чистки количество прочтений уменьшилось на 140
Стоит обратить внимание на такой параметр как Per sequence GC content;
содержание GC пар изменилось с 39 до 38 %, тем не менее, до "чистки" рядом с этим параметром стояло
предупреждение (имеются отклонения от нормального распределения содержания GC-пар в более чем 15% прочтений),
после trimmomatic процент отклонения по прочтениям уменьшился, предупреждение пропало
Вероятно, предупреждение было связано с наличием коротких прочтений, которые вносили погрешности в подсчет
распределения процентного содержания GC-пар
Мы также можем заметить предупреждение напротив параметра Per base sequence content
Они возникает, если различие между А и Т, либо G и C больше 10% в какой-либо позиции
Это может быть связано с ошибкой в процессе секвенирования; скорее всего, это не опосредовано
присутствием какой-либо "загрязняющей" последовательности, иначе такие неточности систематически
появлялись бы в нескольких позициях, а не только в одной, как в нашем случае
Per base sequence content (до и после чистки)
Sequence Length Distribution
Этот модуль генерирует график, показывающий распределение размеров ридов в анализируемом файле
Предупреждение возникает, если все прочтения имеют различную длину
В нашем случае длина ридов в большинстве случаев превышает 100 bp;
Не думаю, что в случае нашего файла такое предупреждение является серьезной проблемой, так как
данный параметр достаточно сильно зависит от качества секвенатора; так, если прибор не является
высокопроизводительным, то небольшие различия в длине ридов для него являются нормой
Sequence Length Distribution (до и после чистки)
Часть II. Картирование чтений
Входной файл |
Получаемый файл |
Команда |
Что делает |
chr8.fasta |
mychr.* |
hisat2-build chr8.fasta mychr |
Индексируем референсную последовательность |
out2.fastq |
samchr8.sam |
hisat2 -x mychr -U out2.fastq -S samchr8.sam --no-spliced-alignment --no-softclip |
Строим выравнивание ридов и референса |
samchr8.sam |
bamchr8.bam |
samtools view samchr8.sam -b >> bamchr8.bam |
Переводим выравнивание ридов с референсом в бинарный формат |
bamchr8.bam |
sortedbam.bam |
samtools sort bamchr8.bam sortedbam |
Сортируем выравнивание ридов с референсом по координате в референсе начала чтения |
sortedbam.bam |
sortedbam.bam.bai |
samtools index sortedbam.bam |
Индексируем отсортированный .bam файл |
Рассмотрим выдачу программы hisat2 - на геном откартировано 3227 ридов,
100% которых были непарными
8187 ридов (99.64%) выровнены ровно 1 раз
30 ридов (0.36%) выровнены 0 раз
0 ридов (0%) выровнены более 1 раза
С помощью команды
samtools depth sortedbam.bam >> cover.csv
вычислим покрытие для каждого
нуклеотида. На выходе получаем таблицу; импортируем ее в Excel и построим гистограмму
Наиболее высокие пики показывают нуклеотиды с самым высоким покрытием. Выберем один из них - 76 478 838
С помощью GenomeBrowser получаем информацию об интересующем нас нуклеотиде:
Homo sapiens hepatocyte nuclear factor 4, gamma (HNF4G), mRNA
hg19 chr8: 76 320 271 - 76 479 061
Размер: 158 791
Общее число экзонов: 11
Цепь: +
chr8: q21.11
Файл с последовательностями экзонов доступен по ссылке
Координаты экзона: 76 476 210 - 76 479 061 (наш нуклеотид - 76 478 838)
Запускаем команду samtools depth -r chr8:76476210-76479061 sortedbam.bam >> exon_cover.csv
Для получения информации о покрытии нашего экзона. Полученную таблицу импортируем в Excel, находим
среднее покрытие экзона
Среднее покрытие экзона: 63.99
Таблица с информацией о покрытии экзона доступна по ссылке