Ресеквенирование - Учебный сайт Орлова Артёма

Практикум 11. Ресеквенирование. Поиск полиморфизмов у человека.

В данном практикуме были найдены и описаны полиморфизмы в экзоме 15 хромосомы человека.

Использованные команды для вызова программ

Описание использованных команд приведено в таблице 1.

**Таблица 1**
Команда	Описание
hisat2-build chr15.fasta chr15	Индексирует последовательность ДНК
fastqc chr15.fastq	Оценивает качество прочтений (вывод: html-файл)
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr15.fastq chr15_trimmed.fastq TRAILING:20 MINLEN:50	Программа Trimmomatic. Очищает чтения по заданным параметрам
hisat2 -x chr15 -U chr15_trimmed.fastq --no-spliced-alignment --no-softclip -S map.sam	Строит выравнивание прочтений и референса в sam-формате
samtools view map.sam -b -o map.bam	Переводит sam-файл в бинарный формат
samtools sort map.bam map_sorted	Сортирует прочтения по координате начала чтения в референсе
samtools index map_sorted.bam	Индексирование бинарного файла
samtools flagstat map_sorted.bam	Показывает статистику откартированных чтений
samtools mpileup -uf chr15.fasta -o pol.bcf map_sorted.bam	Создание файла с полиморфизмами в бинарном формате
bcftools call -cv pol.bcf -o pol.vcf	Создание vcf-файла со списком отличий между референсом и прочтениями
vcftools --vcf pol.vcf --remove-indels --recode --out snp	Удаляет индели из прочтений
convert2annovar.pl -format vcf4 snp.recode.vcf > snp.avinput	Перевод vcf-файла в annovar-формат (.avinput)
annotate_variation.pl -out snp_annotated -build hg19 -dbtype refGene snp.avinput /nfs/srv/databases/annovar/humandb/	Аннотирует полученные SNP по базе данных RefGene
annotate_variation.pl -filter -out snp_annotated -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотирует полученные SNP по базе данных dbsnp
annotate_variation.pl -filter -out snp_annotated -build hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотирует полученные SNP по базе данных 1000 genomes
annotate_variation.pl -regionanno -out snp_annotated -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотирует полученные SNP по базе данных Gwas
annotate_variation.pl -filter -out snp_annotated -build hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотирует полученные SNP по базе данных Clinvar

Получение чтений экзома

Файлы:
chr15.fastq - исходные чтения
chr15_fastqc.html - html-отчёт качества исходных чтений
chr15_trimmed.fastq - триммированные чтения
chr15_trimmed_fastqc.html - html-отчёт качества триммированных чтений

В исходном fastq-файле находилось 5068 чтений. После триммирования осталось 4946 чтений. Сравнение качества чтений приведено на рисунке 1. Также на рисунке 2 приведены распределения качества прочтений до и после триммирования.

Рис.1 — **Рисунок 1.** Сравнения качества прочтений до (слева) и после (справа) триммирования. Качество было улучшено за счёт удаления последовательностей длиной менее 50 п.н., а также последовательностей качеством менее 20.

Рис.2 — **Рисунок 2.** График распределения качества до (слева) и после (справа) триммирования прочтений. В ходе триммирования были удалены чтения длиной меньше 20, что подтверждается этим графиком.

В итоге триммированием было удалено 2.43% чтений от их исходного числа. При этом среднее качество прочтений слабо изменилось (рисунок 2), однако триммирование можно считать оправданным, так как оно показало явное улучшение качества прочтений.

Картирование триммированных чтений экзома на геном

Для начала была проиндексирована референсная последовательность (15 хромосома человека). Затем было проведено картирование чтений на референсную последовательность программой HISAT2. Вывод stdout:

4946 reads; of these:
  4946 (100.00%) were unpaired; of these:
    11 (0.22%) aligned 0 times
    4935 (99.78%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
99.78% overall alignment rate

Не были выровнены 11 чтений из 4946, что составляет 0.22%. Остальные чтения выровнены ровно 1 раз. В итоге картировано 99.78% чтений, что позволяет говорить о хорошем картировании чтений на геном.

Поиск полиморфизмов в выравнивании чтения и генома

Файлы:
map.sam - выравнивание прочтений и референса
pol.vcf - отличия между чтениями и референсом

Был проиндексирован предварительно переведенный в бинарный формат и отсортированный файл с выравниванием чтений на геном. Затем был создан bcf-файл, преобразованый после в vcf-файл со списком отличий между чтениями и референсом. Всего получено 89 полиморфизмов: 87 SNP и 2 инделя. Данные о распределении качества и глубины покрытия полиморфизмов приведены на рисунке 3 (получено с помощью Excel). Описание трёх выбранных полиморфизмов приведено в таблице 2.

Рис.3 — **Рисунок 3.** Распределение качества и глубинного покрытия у найденных полиморфизмов.
Преобладают полиморфизмы с низким качеством и небольшим глубинным покрытием. Тем не менее покрытие и качество можно считать удовлетворительными.

**Таблица 2**
Координата	Тип	Референс	Чтение	Глубина покрытия	Качество чтения
58706050	Замена	C	A	1	10.4247
58840482	Замена	T	C	89	225.009
58853212	Делеция	GACACAC	GACAC	-	217.468

На рисунке 4 графически отображена информация об описанных полиморфизмах.

Рис.4 — **Рисунок 4.** Изображение полиморфизмов из таблицы 2, полученное программой IGV. Для замены T-C более половины ридов не попали на изображение.

Аннотация SNP по базам данных RefGene, dbSNP, 1000 genomes, GWAS, Clinvar

Для аннотирования из vcf-файла были удалены индели, затем файл был переведён в формат annovar (snp.avinput). Описанными выше командами были получены аннотации SNP по 5 базам данных.

Файлы с полученными аннотациями:
RefGene: snp_annotated.variant_function || snp_annotated.exonic_variant_function
dbSNP: snp_annotated.hg19_snp138_dropped || snp_annotated.hg19_snp138_filtered
1000 genomes: snp_annotated.hg19_ALL.sites.2014_10_dropped || snp_annotated.hg19_ALL.sites.2014_10_filtered
GWAS: snp_annotated.hg19_gwasCatalog
Clinvar: snp_annotated.hg19_clinvar_20150629_filtered || пустой _dropped-файл

RefGene делит 87 SNP на 6 групп: intronic (60), ncRNA_intronic (10), exonic (12), intergenic (1), upstream (3), UTR3 (1). Гены с SNP: AQP9, LIPC, HMG20A, ACAN. Все нуклеотидные (с.) и аминокислотные (p.) замены перечислены в файле exonic_variant_function. Читаемый вариант:

synonymous   	LIPC:NM_000236:exon2:c.C264T:p.H88H,	58830707	58830707	C	T	het	225.009	.
synonymous   	LIPC:NM_000236:exon4:c.G465T:p.V155V,	58834741	58834741	G	T	het	201.009	.
synonymous   	LIPC:NM_000236:exon5:c.A591G:p.G197G,	58837957	58837957	A	G	hom	221.999	.
nonsynonymous	LIPC:NM_000236:exon5:c.A644G:p.N215S,	58838010	58838010	A	G	hom	221.999	.
nonsynonymous	LIPC:NM_000236:exon7:c.C1068A:p.F356L,	58853079	58853079	C	A	het	225.009	.
synonymous   	LIPC:NM_000236:exon7:c.A1098G:p.T366T,	58853109	58853109	A	G	het	225.009	.
nonsynonymous	ACAN:NM_001135:exon3:c.C306A:p.D102E,	89382129	89382129	C	A	het	95.0077	.
synonymous   	ACAN:NM_001135:exon7:c.C1221T:p.V407V,	89388905	89388905	C	T	het	184.009	.
synonymous   	ACAN:NM_001135:exon9:c.C1623A:p.P541P,	89391160	89391160	C	A	hom	221.999	.
synonymous   	ACAN:NM_001135:exon10:c.T1809C:p.A603A,	89392745	89392745	T	C	hom	221.999	.
synonymous   	ACAN:NM_001135:exon10:c.C1968T:p.Y656Y,	89392904	89392904	C	T	het	129.008	.
nonsynonymous	ACAN:NM_001135:exon10:c.G2003A:p.R668Q,	89392939	89392939	G	A	het	129.008	.

Например, в первой строке несмотря на замену цитозина на тимин аминокислота осталась та же - гистидин.

По данным аннотации dbSNP имеется 75 SNP с rs.

По данным аннотации 1000 genomes о частоте SNP среднее частоты - 0,492, медиана - 0,478 (подсчитано при помощи Excel).

GWAS предоставляет клиническую аннотацию. Выяснилось, что 5 полиморфизмов связаны с ростом, холестерином высокой плотности, биохимией крови и диабетом 2 типа.

Отсутствуют результаты по Clinvar.