Поиск полиморфизмов

Ресеквенирование. Поиск полиморфизмов у человека

Часть 1. Подготовка чтений

Для практикума использовались прочтения 13-ой хромосомы. Сначала качество ридов было визуализированно с помощью программы FastQC, далее с конца каждого чтения были удалены нуклеотиды с качеством <20 и оставлены чтения не короче 50-ти нуклеотидов. Затем качество ридов было повторно визуализировано.

Таблица 1. Исполненные команды

Команда

Что делает

fastqc chr13.fastq Визуализирует качество ридов 13-ой хромосомы.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr13.fastq chr13_fixed.fastq TRAILING:20 MINLEN:50 Удаляет с конца каждого чтения нуклеотиды с качеством ниже 20; оставляет чтения не короче 50-ти нуклеотидов
fastqc chr13_fixed.fastq Визуализирует качество улучшенных ридов 13-ой хромосомы

Рисунок 1. Per base quality до обработки программой trimmomatic

Рисунок 2. Per base quality после обработки программой trimmomatic

После обработки с помощью trimmomatic число последовательностей уменьшилось с 12155 до 11933. С концов чтений были удалены нуклеотиды с качеством <20, после чего были отброшены чтения с длиной <50. График, а именно среднее качество чтений, стал более пологим из-за уменьшения длины больший ридов за счёт удаления нуклеотидов плохого качества.

Часть 2. Картирование чтений

Таблица 2. Исполненные команды

Команда

Что делает

hisat2-build chr13.fasta chr13 Индексирует файл с референсной последовательностью
hisat2 -x chr13 -U chr13_fixed.fastq --no-spliced-alignment --no-softclip > align1.sam Создание выравнивания референсной последовательности и прочтений с картированием без подрезания чтений и запретом на картирование с разрывом
samtools view align1.sam -bo align1.bam Перевод в бинарный формат .bam
samtools sort align1.bam -T tmp_sorter.txt -o align1_sorted.bam Сортировка бинарного выравнивания по возрастанию
samtools index align1_sorted.bam Индексирование отсортированного выравнивания

Рисунок 3. Вывод результата работы команды hisat2 в терминал

Вывод говорит о том, что из 11.933 чтений 11.112 однозначно откартировались на хромосому, то есть были мапированы единожды, 704 чтения - неоднозначно, то есть были мапированы более одного раза, 117 чтений не откартировались вообще.

Таблица 3. Исполненные команды

Команда

Что делает

samtools mpileup -uf chr13.fasta align1_sorted.bam > snp1.bcf Создание файла с полиморфизмами
bcftools call -cv snp1.bcf -o snp1.vcf Создаёт файл со списком отличий между референсом и чтениями

Таблица 4. Примеры полиморфизмов

Координата

Тип полиморфизма

Референс

Чтения

Глубина покрытия

Качество чтения

25527657 Делеция GAAAA GAAA 44 73,4665
25527364 Транзиция G A 225 225,009
25528225 Трансверсия G C 68 225,009

Всего в .vcf файле 163 полиморфизма являются SNP, а 14 - инделями. SNP в свою очередь делятся на транзиции - замены пуриновых на пуриновые и пиримидиновых на пиримидиновые, и трансверсии - замены пуриновых на пиримидиновые и наоборот. Замен первого типа найдено 115, а второго - 48.

Качество чтений и их глубина в рассмотренных местах достаточно высоки, что свидетельствует о низкой вероятности ошибки секвенирования.

Таблица 5. Исполненные команды

Команда

Что делает

convert2annovar.pl -format vcf4 snp1.vcf > snp1.avinput Конвертирует файл .vcf формата в удобный для работы annovar формат
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138 snp1.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по Dbsnp
annotate_variation.pl -out refgen -build hg19 snp1.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по Refgene
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000Genomes snp1.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по 1000 Genomes
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog snp1.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по GWAS
annotate_variation.pl snp1.avinput -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/ Аннотация по Clinvar

Таблица 6. Ответы на вопросы

Вопрос

Ответ

На какие категории делит snp база данных refseq в annovar? Сколько snp у Вас попало в каждую группу? (в скобках) intronic(90), ncRNA_intronic(61),ncRNA_exonic(12), exonic(9), , intergenic(2), upstream(1), downstream(1), UTR5(1)
В какие гены попали Ваши snp? TPTE2, COL4A1, PHF11
К каким нуклеотидным и аминокислотным заменам привели snp? 6 синонимичных, 3 несинонимичных
Сколько snp имеет rs? 144
Что Вы можете сказать о частоте найденных snp? Средняя встречаемость: 50,46%
Что Вы можете сказать о клинической аннотации snp? Согласно GWAS найдены SNP, связанные с ожирением, сердечной гипертрофией и артериальной ригидностью. ClinVar не содержит информации по найденным полиморфизмам.
Все snp и их характеристики по использованным для аннотации базам данных: Таблица с данными всех аннотаций

Полезные ссылки:

Главная страница;

Профайл;

Учебные реалии, или список семестров;

Официальный сайт ФББ МГУ.


© Daniel Igumnov, 2018