Ресеквенирование.Полиморфизмы у человека

Входной файл	Выходной файл	Команда	Описание
chr6.fastq	chr6_fastqc.zip	fastqc chr6.fastq	Программой FastQC была получена информация о качестве чтений.
chr6.fastq	trim.fastq	java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30. jar SE -phred33 chr6.fastq trim.fastq TRAILING:20 MINLEN:50	Программой Trimmomatic были убраны концы прочтений, у которых качество ниже 20, и убраны прочтения меньше 50 нуклеотидов длинной
trim.fastq	trim_fastqc.zip	fastqc trim.fastq	Программой FastQC была получена информация о качестве редактированных чтений.

Качество прочтений (Per base sequence quality)


До использования Trimmonatic	После использования программы Trimmonatic

Число чтений до чистки: 10289

Число чтений после чистки: 10123

Количество ридов уменьшилось на 166, потому что были отсеяны риды с качеством прочтения ниже 20 (Q < 20) и риды длиной менее 50 нуклеотидов. На картинках ниже это представленно наглядно - пропали риды с длинными усами. Качество прочтения вычисляется по формуле Q=10*lg(p), p - вероятность ошибки.

Часть II: Картирование чтений

Входной файл	Выходной файл	Команда	Описание
ch6.fasta	ch6-ind.x.ht2, где x от 1 до 8	hisat2-build chr6.fasta ch6-ind	Индексируем референсную последовательнось.
ch6-ind.x.ht2, где x от 1 до 8	alinch.sam	hisat2 -x ch6-ind -U trim.fastq --no-softclip --no-spliced-alignment -S alinch.sam	Построение выраванивания прочтений и референса в формате .sam.
alinch.sam	balinch.bam	samtools view alinch.sam -b -o balinch.bam	Изменение формата .sam в его бинарный аналог - .bam.
balinch.bam	balinch.sorted.bam	samtools sort balinch.bam balinch.sorted	Сортировка выравнивания чтений с референсом по координате в референсе начала чтения.
balinch.sorted.bam	balinch.sorted.bam.bai	samtools index balinch.sorted.bam	Индексируем отсортированный файл.

Картировалось на хромосому 10046 ридов. 77 ридов не картировалось совсем.

Программа Hisat2 дает такую информацию о выраванивании чтений на геном, как: координата, куда "легло" чтение, количество картирований для конкретного чтения, некую оценку качества выравнивания и другие характеристики.

Часть III: Анализ SNP

Входной файл	Выходной файл	Команда	Описание
balinch.sorted.bam, chr6.fasta	polym.bcf	samtools mpileup -uf chr6.fasta balinch.sorted.bam -o polym.bcf	Создание файла с полиморфизмами.
polym.bcf	diff.vcf	bcftools call -cv polym.bcf -o diff.vcf	Поиск отличий между референсом и чтениями.

Описание трех полморфизмов

№	Координаты	Тип полиморфизма	В референсе	В ридах	Глубина покрытия	Качество чтений
1	107006115	Делеция	TCCCCC	TCCCC,TCCC	5	15,1077
2	106978314	Замена	G	A	170	183,009
3	107016838	Инсерция	CTTT	CTTTTT	36	217,468

Всего полиморфизмов найдено - 84. Из них 5 инделей.

Покрытие неравномерное, как и качество. Наибольшая глубина покрытия 170, наименьшая 1.

Аннотация SNP

Необходимо аннотировать полученые полифорфизмы. Будем работать с SNP и использовать такие базы данных, как refgene, dbsnp, 1000 genomes, GWAS, Clinvar.

Команда	Описание
convert2annovar.pl -format vcf4 diff.vcf -outfile ch6.avinput	Изменение формата файла с полиморфизмами для работы с annovar.
annotate_variation.pl -out refgen-an -build hg19 -dbtype refGene ch6.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация в Refgene.
annotate_variation.pl -filter -out db-an -build hg19 -dbtype snp138 ch6.avinput /nfs/srv/databases/annovar/humandb.old	Аннотация в dbnsp.
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000G ch6.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация в 1000genomes.
annotate_variation.pl -regionanno -build hg19 -out GWAS -dbtype gwasCatalog ch6.avinput /nfs/srv/databases/annovar/humandb.old/	Аннотация в GWAS.
annotate_variation.pl ch6.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out CLINV	Аннотация в CLINVAR.

База данных refseq в annovar делит snp на группы по позиции в геноме. На экзонах - 15, на интронах - 64, 3'UTR - 5. Эти данные можно получить из файла refgen-an.variant_function.
В файле refgen-an.exonic_variant_function можно найти информацию о делении snp в экзонах на группы - синонимичные (3), несинонимичные (10) и те, что привели к нонсенс мутации (2).

Гены, на которые попали snp - AIM1,TNFAIP3, OPRM1.

У 73 snp есть rs.

Заболевания, к которым могут привести snp, можно найти в файле GWAS.hg19_gwasCatalog.
Аннотированные в GWAS заболевания.

Инсульт	106987370 106987370	A -> C
Системная красная волчанка	138195723 138195723	C -> G
Ревматоидный артрит. Системная красная волчанка	138196066 138196066	T -> G
Ишемическая болезнь сердца	154414563 154414563	A -> G

Аннотация в ClinVar выдала одну запись в файле. На 138196066 позиции в геноме замена T -> G. Она описана термином 'not specified', это говорит, что она либо благоприятная, либо безвредная мутация, либо является признаком для еще не определенного заболевания.

Аннотация в 1000 genomes дала информацию о частоте встречаймости той или иной замены. В файл 1000G.hg19_ALL.sites.2014_10_dropped попало 73 записи.

Частота замены		Координата в геноме	Замена
Наибольшая	0.987819	107008422	C -> T
Наименьшая	0.00658946	154382572	G -> T

Ссылка на сводную таблицу в Excel.

Ресеквенирование. Поиск и описание полиморфизмов у человека.

Часть I: Подготовка чтений

Часть II: Картирование чтений

Часть III: Анализ SNP

Аннотация SNP