Поиск и описание полиморфизмов пациента

Практикум №11

Анализ качества чтений и их очистка

Материал анализа - 19 хромосома человека. Референсная последовательность - chr19 сборки hg19. Вы можете скачать файл рида и файл референсной последовательности.


Для анализа качества чтений была использована программа FastQC. Она была установлена на компьютер локально и занесена в PATH. Команда запуска:
fastqc chr19.fastq
Также с помощью программы Trimmomatic была проведена очистка чтений. Команда запуска:
java -jar ~/bin/trimmomatic-0.36/trimmomatic-0.36.jar SE -phred33 chr19.fastq chr19.trimmed.fastq TRAILING:20 MINLEN:50
Эта команда обрезает с конца каждого чтения нуклеотиды с качеством ниже 20 (параметр TRAILING:20) и оставляет только чтения длиной не меньше 50 нуклеотидов (параметр MINLEN:50).

Сравнение исходных и очищенных чтений
Рисунок 1. Выдача программы FastQC с неочищенными ридами
Рисунок 2. Выдача программы FastQC с очищенными ридами

Число чтений до чистки: 5524;
Число чтений после чистки: 5227;
Отсеялись все чтения длиной качественной части менее 50. Остальная выдача FastQC имеет незначительные различия; упоминания стоит лишь распределение последовательностей по длине:

Рисунок 3. Распределение длин неочищенных ридов
Рисунок 4. Распределение длин очищенных ридов

Из этой выдачи видно, что последовательности длиной более 100 часто укорачивались из-за низкокачественных концевых участков, а последовательности длиной менее 50 нуклеотидов выбрасывались.


Картирование чтений и анализ выравнивания

Далее работа шла с очищенными чтениями. С помошью программы HISAT2 риды были откартированы, а затем с помощью пакета SAMTools проанализированы. Команды:
hisat2-build ref-chr19.fasta ref-chr19 > hisat2-build.log
hisat2 --no-spliced-alignment --no-softclip -x ref-chr19 -U chr19.trimmed.fastq -S chr19.sam 2> hisat2.log
samtools view chr19.sam -o chr19.bam
samtools sort chr19.bam -o chr19.sorted.bam
samtools index chr19.sorted.bam
samtools depth --reference ref-chr19.fasta chr19.sorted.bam > chr19.sorted.depth.tab
samtools depth -a --reference ref-chr19.fasta -r chr19:17322704-17324104 chr19.sorted.bam > chr19.myo9b.depth.tab

Параметры hisat2:
--no-spliced-alignment – запрещает создавать гэпы (больших размеров) в выравнивании.
--no-softclip – запрещает мягкое обрезание последовательностей.
-x <basename> – 'basename' индекса референсного генома.
-U <file> – список файлов с ридами.
-S <file> – файл SAM для записи вывода.
--snp <file> – вывод в файл списка SNP. (Возникает вопрос, для чего вообще используется SAMTools в дальнейшем? Возможно, из-за проблем с несовместимостью форматов?)
2> <file> – запись потока stderr в файл.
Параметры samtools:
<any module> -o – имя выходного файла.
depth -a – производить запись даже о нуклеотидах с нулевым покрытием. (Необходимо (sic!) для корректного определения среднего покрытия)
depth -r – регион для отображения.

В файле hisat2.log указано, сколько чтений картировано на хромосому. Оказалось, что:
Картированы 5206 ридов;
Не картирован 21 рид;
Для анализа покрытия экзона был выбран нуклеотид с хорошим покрытием (позиция 17323412). С помощью GenomeBrowser были определены границы экзона гена MY09B: 17322704 – 17324104. Среднее покрытие нуклеотидов экзона ридами составило 37,6 (с учётом непокрытых нуклеотидов).

Поиск SNP

С помощью пакетов SAMTools и BCFTools был проведён поиск полиморфизмов в ридах. Команды:
samtools mpileup -u -f ref-chr19.fasta chr19.sorted.bam -o chr19.sorted.mpileup.bcf
bcftools call -c -O v -v chr19.sorted.mpileup.bcf -o chr19.sorted.snp.vcf


Параметры samtools:
<any module> -o – имя выходного файла.
mpileup -u – вывод – несжатые (uncompressed) файлы BCF.
mpileup -f – референс-файл в формате fasta.
Параметры bcftools:
<any module> -o – имя выходного файла.
call -c – вызов консенсуса.
call -O <type> – формат вывода (v = raw VCF).
call -v – выводить только варьирующие сайты.

Анализ полиморфизмов:

Координата chr19:17264961 chr19:17283383 chr19:17247445
Тип Modification Insertion Deletion
Изменение G → C ∅ → G A → ∅
Глубина покрытия 20 8 2
Качество чтений 137.0 162.5 28.2


Лишь у немногих (16 из 93) полиморфизмов покрытие превышает 20. Качество большинства не превышает 100.

Визуализация SNP

Рисунок 5. SNP #1 - мутация в гене MYO9B

Рисунок 6. SNP #2 - инсерция в гене MYO9B

Рисунок 7. SNP #3 - делеция в гене MYO9B

Для визуализации SNP была использована программа Interactive Genomics Viewer.


Аннотация SNP

С помощью комплекта программ ANNOVAR были аннотированы полученные снипы по различным базам данных. Команды:

convert2annovar.pl --format vcf4 --outfile chr19.sorted.snp.annovar chr19.sorted.snp.vcf
annotate_variation.pl --outfile annots/chr19 --build hg19 --dbtype refGene          --geneanno   --comment chr19.sorted.snp.annovar ~/bin/annovar/humandb/
annotate_variation.pl --outfile annots/chr19 --build hg19 --dbtype snp138           --filter     --comment chr19.sorted.snp.annovar ~/bin/annovar/humandb/
annotate_variation.pl --outfile annots/chr19 --build hg19 --dbtype 1000g2014oct_all --filter     --comment chr19.sorted.snp.annovar ~/bin/annovar/humandb/
annotate_variation.pl --outfile annots/chr19 --build hg19 --dbtype clinvar_20150629 --filter     --comment chr19.sorted.snp.annovar ~/bin/annovar/humandb/
annotate_variation.pl --outfile annots/chr19 --build hg19 --dbtype gwasCatalog      --regionanno --comment chr19.sorted.snp.annovar ~/bin/annovar/humandb/


Мною была составлена сводная таблица всех аннотаций SNP, сделанных ранее.


© Arsenii Loginovskii, 2016-2018
Лого ФББ