Входной файл | Получаемый файл | Команда | Что делает |
chr8.fastqc | chr8_fastqc.zip | fastqc chr8.fastq |
Контроль качества прочтений |
chr8.fastq | out1.fastq | java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr8.fastq out1.fastq TRAILING:20 |
Удаляем с конца нуклеотиды качеством < 20 |
out1.fastq | out2.fastq | java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 out1.fastq out2.fastq MINLEN:50 |
Удаляем с конца последовательности длины < 50 | out2.fastq | out2_fastq.zip | fastqc out2.fastq |
Контроль качества прочтений |
Число чтений до чистки: 8367
Число чтений после чистки: 8227
С помощью программы trimmomatic были удалены нуклеотиды с качеством чтения
(меньше 20, где Q=10*lg(p), p - вероятность ошибки)
Отобраны прочтения с длиной более 50 нуклеотидов
Пропали риды с длинными усами
В результате проведенной нами небольшой чистки количество прочтений уменьшилось на 140
Стоит обратить внимание на такой параметр как Per sequence GC content;
содержание GC пар изменилось с 39 до 38 %, тем не менее, до "чистки" рядом с этим параметром стояло
предупреждение (имеются отклонения от нормального распределения содержания GC-пар в более чем 15% прочтений),
после trimmomatic процент отклонения по прочтениям уменьшился, предупреждение пропало
Вероятно, предупреждение было связано с наличием коротких прочтений, которые вносили погрешности в подсчет
распределения процентного содержания GC-пар
Мы также можем заметить предупреждение напротив параметра Per base sequence content
Они возникает, если различие между А и Т, либо G и C больше 10% в какой-либо позиции
Это может быть связано с ошибкой в процессе секвенирования; скорее всего, это не опосредовано
присутствием какой-либо "загрязняющей" последовательности, иначе такие неточности систематически
появлялись бы в нескольких позициях, а не только в одной, как в нашем случае
Sequence Length Distribution
Этот модуль генерирует график, показывающий распределение размеров ридов в анализируемом файле
Предупреждение возникает, если все прочтения имеют различную длину
В нашем случае длина ридов в большинстве случаев превышает 100 bp;
Не думаю, что в случае нашего файла такое предупреждение является серьезной проблемой, так как
данный параметр достаточно сильно зависит от качества секвенатора; так, если прибор не является
высокопроизводительным, то небольшие различия в длине ридов для него являются нормой
Входной файл | Получаемый файл | Команда | Что делает |
chr8.fasta | mychr.* | hisat2-build chr8.fasta mychr |
Индексируем референсную последовательность |
out2.fastq | samchr8.sam | hisat2 -x mychr -U out2.fastq -S samchr8.sam --no-spliced-alignment --no-softclip |
Строим выравнивание ридов и референса |
samchr8.sam | bamchr8.bam | samtools view samchr8.sam -b >> bamchr8.bam |
Переводим выравнивание ридов с референсом в бинарный формат |
bamchr8.bam | sortedbam.bam | samtools sort bamchr8.bam sortedbam |
Сортируем выравнивание ридов с референсом по координате в референсе начала чтения |
sortedbam.bam | sortedbam.bam.bai | samtools index sortedbam.bam |
Индексируем отсортированный .bam файл |
Рассмотрим выдачу программы hisat2 - на геном откартировано 3227 ридов,
100% которых были непарными
8187 ридов (99.64%) выровнены ровно 1 раз
30 ридов (0.36%) выровнены 0 раз
0 ридов (0%) выровнены более 1 раза
С помощью команды
samtools depth sortedbam.bam >> cover.csvвычислим покрытие для каждого
samtools depth -r chr8:76476210-76479061 sortedbam.bam >> exon_cover.csv