Terms

1. Описание полиморфизмов пациента. Подготовка чтений.

В качестве исходных данных были использованы чтения экзома, картирующие участок 13-й хромосомы человека.
Файл с одноконцевыми чтениями в формате fastq: chr13.fastq. Хромосома человеческого генома (сборка версии hg19): chr13.fasta.
В директории morozova_ea@kodomo.fbb.msu.ru:/nfs/srv/databases/ngs/morozova_ea/ была создана моя директория morozova_ea, куда были скопированы файлы с ридами (chr13.fastq) и хромосомой (chr13.fasta).

1. Анализ качества чтений
Далее, с помощью программы FastQC был осуществлен контроль качества чтений: fastqc chr13.fastq
В результате был получен архив chr13_fastqc.zip, содержащий отчет о работе программы в виде html-страницы chr13_fastqc.html

2. Очистка чтений
Для лучшего качества чтений необходимо провести очистку.Применим программу Trimmomatic. С конца каждого чтения будут отрезаны нуклеотиды с качеством не ниже 20 (TRAILING:20) и оставлены только чтения длиной не меньше 50 нуклеотидов (MINLEN:50):
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr13.fastq trimm_out.fastq MINLEN:50 TRAILING:20
В результате получен файл trimm_out.fastq.
Очищенная последовательность была также проанализирована программой FastQC: fastqc trimm_out.fastq и получена страница trimm_out_fastqc.html.
На рисунках 1(до очистки) и 2 (после очистки)наглядно показаны результаты работы программы FastQC, то есть качество прочтений до и после очистки по всем основаниям в каждой позиции fastq-файла.

Рис.1

Рис.2

Для каждой позиции построена диаграмма размахов.
Желтые прямоугольники - это интерквартильные размахи (от 25 о 75%), синяя линия - математическое ожидание, концы черных линий - точки от 10 до 90%, красная линия - медиана.
Чем больше значение по оси Y, тем лучше определено основание. По цвету фона также можно судить о точности: зеленая область фона - качество хорошее, оранжевая - среднее, красная - плохое.
После очистки число ридов уменьшилось на 6 (с 12155 до 12149), так как были удалены риды наиболее низкого качества.
Видно, что после очистки осле все чтения оказались в "зеленой области". То есть, благодаря работе программы Trimmomatic, были получены приемлимые для дальнейшей работы чтения.

3. Картирование чтений
Полученные чтения необходимо откартировать с помощью программы BWA (Burrows-Wheeler Alignment Tool).
На первом этапе хромосома 13 была проиндексирована:
bwa index chr13.fasta
Затем было построено выравнивание прочтений и проиндексированной референсной последовательности:
bwa mem chr13.fasta trimm_out.fastq >> align_pr13.sam
Получен файл align_pr13.sam с выравниваниями в формате sam.

4. Анализ выравнивания
Полученное выравнивание чтений с референсом было переведено в бинарный формат bam:
samtools view -b align_pr13.sam -o align_pr13.bam
Параметр -b обозначает, что формат выходного файла - bam, параметр -o обозначает выходной файл (align_pr13.bam).
Далее выравнивание чтений с референсом (получившийся после картирования align_sort.bam файл) было отсортировано по координате в референсе начала чтения:

samtools sort align_pr13.bam align_sort
Cортированный файл был проиндексирован:

samtools index align_sort.bam
Было выяснено, сколько чтений откартировалось на геном:

samtools idxstats align_sort.bam >> number.out
В файле number.out содержится информация, что из 12149 чтений на хромосому были откартированы 12051.

5. Поиск SNP и инделей
Для начала был создан файл с полиморфизмами в формате .bcf:
samtools mpileup -uf chr13.fasta align_sort.bam -o snp.bcf
Затем, был создан vcf-файл со списком отличий между референсом и чтениями: bcftools call -cv snp.bcf -o snp.vcf.
Всего в файле snp.vcf указано 135 полиморфизма, из них 6 вставок, 7 делеций и 122 замены.
Среднее значение качества - 79.2, покрытия - 33.7. Полученные результаты можно считать приемлимыми.
В таблице №1 описаны в качстве примера 3 полиморфизма, найденные в файле snp.vcf.

Информация о полиморфизмах

Позиция

В референсе

В чтениях

Тип полиформизма

Глубина покрытия

Качество чтений

25 527 657

GAAAA

GAAA

Вставка

45

54,4663

110 884 873

TAA

T

Делеция

1

19,5198

110 815 400

C

T

Замена

1

11,3429

6. Аннотация SNP
С помощью программы annovar необходимо проаннотировать только snp (без инделей), используя базы данных: refgene, dbsnp, 1000 genomes, GWAS и Clinvar.
Сначала необходимо подготовить входной файл для корректной работы программы.
В первую очередь из файла snp.vcf вручную были удалены индели (получили файл snp_only.vcf).
Дальнейшая подготовка файла:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp_only.vcf -outfile snp.avinput
Затем, полученный файл snp.avinput использовался для аннотации SNP по базам данных, указанным выше, с помощью скрипта annotate_variation.pl.

6.1 Аннотация по базе refgene
perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr13.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
База данных refseq в annovar делит SNP на несколько групп, которые отображены в первой колонке файла chr13.refgene.variant_function.
Эти категории отражают, где находится данный полиморфизм: внутри экзона, интрона, на пересечении генов, входит в 3'-нетранслируемую область, в 5'-нетранслируемую область, в пределах n bp от границы сплайсинга и т.д.
Получены файлы chr13.refgene.variant_function (описание всех SNP), chr13.refgene.exonic_variant_function (описание SNP, попавших в экзоны) и chr13.refgene.log (описание процесса работы программы).
В таблице №2 указана информация о SNP, принадлежащих различным группам, полученная из файла chr13.refgene.variant_function.
В таблице №3 представлена информация о SNP в экзонах, полученная из файла chr13.refgene.exonic_variant_function.
Всего в экзоны попало 7 SNP.

Данные о SNP в различных группах

В интронах

В экзонах

UTR3

Homo

Hetero

77

7

3

72

50

Таблица №2.

Данные о SNP в экзонах

Координата

Тип замены

Ген

В референсе

В чтениях

Замена аминокислоты

Гетеро-/гомо-зиготная замена

Качество чтений

Глубина покрытия

50080847

синонимичная

PHF11

A

G

L18L

гомозиготная

222

45

110804809

синонимичная

COL4A1

G

A

S1600S

гетерозиготная

164

27

110813709

синонимичная

COL4A1

G

A

A1490A

гетерозиготная

221

46

110818598

несинонимичная

COL4A1

T

G

Q1334H

гетерозиготная

212

49

110827684

несинонимичная

COL4A1

C

A

V1027L

гетерозиготная

15 142

27

110839550

несинонимичная

COL4A1

T

G

T555P

гомозиготная

222

24

110864225

синонимичная

COL4A1

A

T

A144A

гомозиготная

222

47

Таблица №3.

Как видно из таблиц, большинство замен произошли в интронах.
Возможно, это связано с тем, что замены в последовательностях кодирующих областей могут привести к изменению аминокислоты (несинонимичная замена) в конечном продукте - белке, чем нарушить его структуру и тем самым функцию.

6.2 Аннотация по базе dbsnp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr13.dbsnp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
Получены файлы chr13.dbsnp.hg19_snp138_dropped (содержит список SNP, имеющих rs, то есть аннотированные в этой базе данных),
chr13.dbsnp.hg19_snp138_filtered (SNP не аннотированные в базе данных) и chr13.dbsnp.log (описание процесса работы программы).
Выяснилось, что 109 SNP имеют аннотацию в базе данных dbSNP, а 13 не имеют.

6.3 Аннотация по базе 1000 genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr13.1000 -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/
Получены следующие три файла: chr13.1000.hg19_ALL.sites.2014_10_dropped, chr13.1000.hg19_ALL.sites.2014_10_filtered, chr13.1000.log, аналогичные выходным файлам в предыдущем пункте.
105 имеют аннотация, а 17 не имеют.
Также были выяснены частоты аннотированных полиморфизмов. Она варьируется от 3,55 до 225,01. В среднем частота составляет 87,59.

6.4 Аннотация по базе GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -out chr13.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/
Получено 2 файла: chr13.gwas.hg19_gwasCatalog (SNP, для которых известно клиническое значение) и chr13.gwas.log (описание процесса работы программы).
Среди исследуемых полиморфизмов 3 имеют аннотированное клиническое значение. Один связан с артериальной жесткостью, другой - гипертонией, третий связан с ожирением.

6.5 Аннотация по базе Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr13.clincar -buildver hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb/
Получено 3 файла chr13.clincar.hg19_clinvar_20150629_dropped, chr13.clincar.hg19_clinvar_20150629_filtered, chr13.clincar.log.
Оказалось, что в этой базе данных ни один из изучаемых SNP не аннотирован.
Итоговый excel-файл по всем SNP: pr12.xlsx.

Информация о полиморфизмах
Позиция	В референсе	В чтениях	Тип полиформизма	Глубина покрытия	Качество чтений
25 527 657	GAAAA	GAAA	Вставка	45	54,4663
110 884 873	TAA	T	Делеция	1	19,5198
110 815 400	C	T	Замена	1	11,3429

Данные о SNP в различных группах
В интронах	В экзонах	UTR3	Homo	Hetero
77	7	3	72	50

Данные о SNP в экзонах
Координата	Тип замены	Ген	В референсе	В чтениях	Замена аминокислоты	Гетеро-/гомо-зиготная замена	Качество чтений	Глубина покрытия
50080847	синонимичная	PHF11	A	G	L18L	гомозиготная	222	45
110804809	синонимичная	COL4A1	G	A	S1600S	гетерозиготная	164	27
110813709	синонимичная	COL4A1	G	A	A1490A	гетерозиготная	221	46
110818598	несинонимичная	COL4A1	T	G	Q1334H	гетерозиготная	212	49
110827684	несинонимичная	COL4A1	C	A	V1027L	гетерозиготная	15 142	27
110839550	несинонимичная	COL4A1	T	G	T555P	гомозиготная	222	24
110864225	синонимичная	COL4A1	A	T	A144A	гомозиготная	222	47