Поиск и описание полиморфизмов

Картирование ридов на хромосому 5 и аннотация полиморфизмов

Скачать все команды одним bash скриптом.

Таблица 1. Использованные команды.
hisat2-build chr5.fasta chr5 Индексирование референса
fastqc chr5.fastq Проверка качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 Очистка чтений
fastqc chr5_trimmed.fastq Проверка качества после очистки чтений
hisat2 -x chr5 -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip --no-spliced-alignment Выравнивание прочтений и референса
samtools view -b chr5_align.sam -o chr5_align.bam Перевод выравнивания в бинарный формат
samtools sort chr5_align.bam chr5_align_sorted Сортировка выравнивания по координате в референсе
samtools index chr5_align_sorted.bam Индексирование отсортированного файла
samtools flagstat chr5_align.sam Получение основной информации о картировании, в т.ч. числа откартированных чтений
samtools mpileup -uf chr5.fasta chr5_align_sorted.bam -o chr5_snp.bcf Создание файла с полиморфизмами
bcftools call -cv chr5_snp.bcf -o chr5_snp.vcf Перевод полученного файла в текстовый формат
vcftools --vcf chr5_snp.vcf --remove-indels --recode --out chr5_snp_noind Удаление инделей из vcf-файла
convert2annovar.pl -format vcf4 chr5_snp_noind.recode.vcf -outfile chr5_snp.avinput Получение входного файла для annovar
annotate_variation.pl -out chr5_refgene -build hg19 chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных refGene
annotate_variation.pl -filter -out chr5_dbsnp -build hg19 -dbtype snp138 chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr5_1000genomes chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out chr5_gwas -dbtype gwasCatalog chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных Gwas
annotate_variation.pl chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out chr5_clinvar Аннотация по базе данных Clinvar

Анализ качества и очистка чтений.

Исходно было получено 8208 чтений. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 8114 ридов. Качество чтений после очистки отображено на Рис. 2. Видно, что выбросов стало меньше.
Также качество чтений можно проверять по распределению GC-контента ридов. В теории он должен быть распределен нормально. Однако в нашем случае от нормального распределения есть отклонения (см. Рис. 3).

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 1. Фрагмент выдачи FastQC до очистки.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 2. Фрагмент выдачи FastQC после очистки.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 3. GC контент до очистки.

Картирование ридов и аннотация полиморфизмов.

8084 (99.63%) чтений были картированы на 5 хромосому. Качество картирования высокое. Описание трех из 32 полиморфизмов даны в Таблице 2.
Всего из 32 полиморфизмов: 28 SNP, 4 indels. В целом, покрытие и качество полиморфизмов хорошее, это видно при визуализации полиморфизмов с помощью Integrative Genomics Viewer (пример см. Рис. 5).

База данных refGene делит snp по их расположению в последовательности. Из моих 4 оказались экзонными, 24 - интронными, а один - в 3'-нетранслируемой области.
Из экзонных snp 3 попали в ген IL7R (рецептор интерлейкина-7), а один - в ген CAPSL (кальцифозин-подобный белок). Нуклеотидные замены: T197C (IL7R, exon2), G412A (IL7R, exon4), C731T (IL7R, exon6), G254A (CAPSL, exon3). Соответствующие им аминокислотные замены: I66T, V138I, T244I, R85Q.

24 из 28 SNP имеют reference SNP ID number (rs).

Для 23 SNP, обнаруженных в базе данных 1000genomes, средняя частота равна 0.42. Есть несколько редких интронных полиморфизмов, а самый редкий полиморфизм из экзонных - по позиции 35874575 (частота 0.172524).

Согласно базе данных GWAS (genome-wide association studies), три SNP ассоциированы с повышенным уровнем липопротеинов низкой плотности, а другие два - с диабетом I типа.
База данных ClinVar содержит информацию о трех SNP, все из которых в гене IL7R. Два полиморфизма предположительно патогенны, один - неизвестно.

Таблица 2. Описание некоторых полиморфизмов.
Полиморфизм 1 Полиморфизм 2 Полиморфизм 3
Координата 35857177 35857308 74652239
Тип полиморфизма Замена Вставка Делеция
Референс G T CAG
Чтения C TC C
Глубина покрытия 113 40 9
Качество чтений 221.999 177.458 68.4664
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 4. Выравнивание ридов с геном IL7R.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 5. Пример SNP гена IL7R.