Поиск полиморфизмов

Ресеквенирование. Поиск полиморфизмов у человека

Часть 1. Подготовка чтений

Для практикума использовались прочтения 13-ой хромосомы. Сначала качество ридов было визуализированно с помощью программы FastQC, далее с конца каждого чтения были удалены нуклеотиды с качеством <20 и оставлены чтения не короче 50-ти нуклеотидов. Затем качество ридов было повторно визуализировано.

Таблица 1. Исполненные команды

Команда	Что делает
fastqc chr13.fastq	Визуализирует качество ридов 13-ой хромосомы.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr13.fastq chr13_fixed.fastq TRAILING:20 MINLEN:50	Удаляет с конца каждого чтения нуклеотиды с качеством ниже 20; оставляет чтения не короче 50-ти нуклеотидов
fastqc chr13_fixed.fastq	Визуализирует качество улучшенных ридов 13-ой хромосомы

Рисунок 1. Per base quality до обработки программой trimmomatic

Рисунок 2. Per base quality после обработки программой trimmomatic

После обработки с помощью trimmomatic число последовательностей уменьшилось с 12155 до 11933. С концов чтений были удалены нуклеотиды с качеством <20, после чего были отброшены чтения с длиной <50. График, а именно среднее качество чтений, стал более пологим из-за уменьшения длины больший ридов за счёт удаления нуклеотидов плохого качества.

Часть 2. Картирование чтений

Таблица 2. Исполненные команды

Команда	Что делает
hisat2-build chr13.fasta chr13	Индексирует файл с референсной последовательностью
hisat2 -x chr13 -U chr13_fixed.fastq --no-spliced-alignment --no-softclip > align1.sam	Создание выравнивания референсной последовательности и прочтений с картированием без подрезания чтений и запретом на картирование с разрывом
samtools view align1.sam -bo align1.bam	Перевод в бинарный формат .bam
samtools sort align1.bam -T tmp_sorter.txt -o align1_sorted.bam	Сортировка бинарного выравнивания по возрастанию
samtools index align1_sorted.bam	Индексирование отсортированного выравнивания

Рисунок 3. Вывод результата работы команды hisat2 в терминал

Вывод говорит о том, что из 11.933 чтений 11.112 однозначно откартировались на хромосому, то есть были мапированы единожды, 704 чтения - неоднозначно, то есть были мапированы более одного раза, 117 чтений не откартировались вообще.

Таблица 3. Исполненные команды

Команда	Что делает
samtools mpileup -uf chr13.fasta align1_sorted.bam > snp1.bcf	Создание файла с полиморфизмами
bcftools call -cv snp1.bcf -o snp1.vcf	Создаёт файл со списком отличий между референсом и чтениями

Таблица 4. Примеры полиморфизмов

Координата	Тип полиморфизма	Референс	Чтения	Глубина покрытия	Качество чтения
25527657	Делеция	GAAAA	GAAA	44	73,4665
25527364	Транзиция	G	A	225	225,009
25528225	Трансверсия	G	C	68	225,009

Всего в .vcf файле 163 полиморфизма являются SNP, а 14 - инделями. SNP в свою очередь делятся на транзиции - замены пуриновых на пуриновые и пиримидиновых на пиримидиновые, и трансверсии - замены пуриновых на пиримидиновые и наоборот. Замен первого типа найдено 115, а второго - 48.

Качество чтений и их глубина в рассмотренных местах достаточно высоки, что свидетельствует о низкой вероятности ошибки секвенирования.

Таблица 5. Исполненные команды

Команда	Что делает
convert2annovar.pl -format vcf4 snp1.vcf > snp1.avinput	Конвертирует файл .vcf формата в удобный для работы annovar формат
annotate_variation.pl -filter -out SR_SNP -build hg19 -dbtype snp138 snp1.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация по Dbsnp
annotate_variation.pl -out refgen -build hg19 snp1.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация по Refgene
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000Genomes snp1.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация по 1000 Genomes
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog snp1.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация по GWAS
annotate_variation.pl snp1.avinput -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINVAR /nfs/srv/databases/annovar/humandb.old/	Аннотация по Clinvar

Таблица 6. Ответы на вопросы

Вопрос	Ответ
На какие категории делит snp база данных refseq в annovar? Сколько snp у Вас попало в каждую группу? (в скобках)	intronic(90), ncRNA_intronic(61),ncRNA_exonic(12), exonic(9), , intergenic(2), upstream(1), downstream(1), UTR5(1)
В какие гены попали Ваши snp?	TPTE2, COL4A1, PHF11
К каким нуклеотидным и аминокислотным заменам привели snp?	6 синонимичных, 3 несинонимичных
Сколько snp имеет rs?	144
Что Вы можете сказать о частоте найденных snp?	Средняя встречаемость: 50,46%
Что Вы можете сказать о клинической аннотации snp?	Согласно GWAS найдены SNP, связанные с ожирением, сердечной гипертрофией и артериальной ригидностью. ClinVar не содержит информации по найденным полиморфизмам.
Все snp и их характеристики по использованным для аннотации базам данных:	Таблица с данными всех аннотаций

Полезные ссылки:

Главная страница;

Профайл;

Учебные реалии, или список семестров;

Официальный сайт ФББ МГУ.

Ресеквенирование. Поиск полиморфизмов у человека

Часть 1. Подготовка чтений

Таблица 1. Исполненные команды

Команда

Что делает

Рисунок 1. Per base quality до обработки программой trimmomatic

Рисунок 2. Per base quality после обработки программой trimmomatic

Часть 2. Картирование чтений

Таблица 2. Исполненные команды

Команда

Что делает

Рисунок 3. Вывод результата работы команды hisat2 в терминал

Таблица 3. Исполненные команды

Команда

Что делает

Таблица 4. Примеры полиморфизмов

Координата

Тип полиморфизма

Референс

Чтения

Глубина покрытия

Качество чтения

Таблица 5. Исполненные команды

Команда

Что делает

Таблица 6. Ответы на вопросы

Вопрос

Ответ

Полезные ссылки: