1. Анализ качества чтений

-cсылка на FastQC проект
-cкрин BoxPlot диаграммы:



Вывод: в целом, качество чтений довольно хорошее, приемлемое для последующего анализа. Единтственное, настораживает, что качество ридов в конце резко падает и мы видим длинные "усы" для последних нуклеотидов.

2. Очистка чтений

-cсылка на FastQC проект после применения Trimmomatic к данным ридам
-скрин BoxPlot диаграммы после применения Trimmomatic:



-осталось 8114 чтений из 8208. На этих графиках видно, что действительно, риды длинной меньше 50 отсеялись:

-длина до обработки:



-длина после Trimmomatic:



-в программе Trimmomatic были выставлены такие параметры, чтобы оставались чтения, больше чем в 50 нуклеотидов, а также отсеивались с конца нуклеотиды, качество которых ниже 20. На выходе мы получили "причесанные" чтения.

4. Анализ выравнивания

-откартировались 8084 чтений, 30 чтений не легли на геном
- таблица команд:

Команда Функция
hisat2-build chr5.fasta chr5Индексирует референсную последовательность
hisat2 --no-spliced-alignment --no-softclip -x chr5 -U chr5good.fastq -S chr5_al.samСтроит выравнивание референсной последовательности и прочтений и сохраняет результат в файл chr5_al.sam
(опция '--no-spliced-alignment' запрещает разбивать чтения и выравнивать их отдельными участками, опция '--no-softclip' запрещает подрезать чтения с концов)
samtools view chr5_al.sam -b -o chr5_al.bamПереводит выравнивание в бинарный формат
samtools sort chr5_al.bam -o chr5_al_s.bamСортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index chr5_al_s.bamИндексирует отсортированный .bam файл


Вывод: 30 прочтений не были выравнены вовсе, 8084 - 1 раз и ни одного прочтения не было выравнено более 1 раза.
Помимо данной информации, в полученном .sam файле содержится и другая информация о картировании чтений, например ID каждого чтения, его координата в хромосоме и номер самой хромосомы, расстояние до генома, количество картирований и т.д.

Анализ SNP

-таблица команд

КомандаФункция
samtools mpileup -uf chr5.fasta alignsort.bam -o snp.bcfСоздает файл с полиморфизмами в формате .bcf
bcftools call -cv chr5_al.bcf -o chr5_al.vcfСоздает файл со списком отличий между референсом и чтениями в формате .vcf
perl ../../annovar/convert2annovar.pl.old -format vcf4 chr5_al.vcf | grep - v '-' | moreСоздает файл, необходимый для работы annovar
perl ../../annovar/annotate_variation.pl.old -build hg19 -out snp.ref chr5_ an.txt ../../annovar/humandb/Аннотирует полученные snp по базе данных refgene
perl ../../annovar/annotate_variation.pl.old -filter -out snp.dbsnp -build hg19 -dbtype snp138 chr5_an.txt ../../annovar/humandb/ Аннотирует полученные snp по базе данных dbsnp
perl ../../annovar/annotate_variation.pl.old -filter -out snp.1000g -buildv er hg19 -dbtype 1000g2014oct_all chr5_an.txt ../../annovar/humandb.old/Аннотирует полученные snp по базе данных 1000 genomes
perl ../../annovar/annotate_variation.pl.old -regionanno -out snp.gwas -bui ld hg19 -dbtype gwasCatalog chr5_an.txt ../../annovar/humandb.old/Аннотирует полученные snp по базе данных Gwas
perl ../../annovar/annotate_variation.pl.old -filter -dbtype clinvar_201506 29 -build hg19 -out snp.clinvar chr5_an.txt ../../annovar/humandb.old/Аннотирует полученные snp по базе данных Clinvar

5. Поиск SNP и инделей.

-Три выбранных полиморфизма:

КоординатаРеференсная последовательностьЧтенияТип полиморфизмаГлубина покрытия Качество чтений
35861068TCЗамена нуклеотида44221.999
35857308TTCВставка нуклеотида40177.458
74639544CTTGTATTGTCTTGTДелеция нуклеотидов2373.4665


Всего было обнаружено 32 полиморфизма, из которых 4 являются инделями и 28 - snp. Лишь у двух snp глубина покрытия превысила показтель 100. Качество у многих snp больше 200- это является весьма неплохим показателем.

6. Аннотация SNP.

- сводная таблица характеристик snp:

КоординатаSNPQuality и DPrefgenedbsnp1000 genomesGwasClinvar
35857177G C221.999 113intronic IL7R homrs13532520.647364
35857235C G221.999 83 intronic IL7R homrs14945610.647564
35857262A G221.999 58 intronic IL7R homrs13532500.647564
35860780G T21.0411 8 intronic IL7R het
35861068T C221.999 44 exonic IL7R homrs1494558 0.59984 *
35861152C G176.009 30 intronic IL7R hetrs11567705 0.233826
35861268T G38.7651 2 intronic IL7R homrs969129 0.667332
35867343T C184.009 32 intronic IL7R hetrs73750058 0.00838658
35870814A C32.7667 2 intronic IL7R homrs10063445
35871010C T126.008 47 intronic IL7R hetrs6893892 0.0247604
35871190G A221.999 98 exonic IL7R homrs1494555 0.666933*
35871463T C111.008 20 intronic IL7R hetrs9282751 0.0247604
35873899C A3.0136 3 intronic IL7R het
35874575C T225.009 164exonic IL7R hetrs68979320.172524Multiple sclerosis,Type 1 diabetes*
35875593A T221.999 41 intronic IL7R homrs987106 0.44988
35910419C T221.999 53 intronic CAPSL homrs14458990.525359
35910529C T221.999 92 exonic CAPSL homrs14458980.525359Type 1 diabetes
35921069T C221.999 28 intronic CAPSL homrs68598920.859625
35937050T C11.3429 1 intronic CAPSL homrs68906600.926917
74633975C T8.64911 1 intronic HMGCR hom
74639269C T22.7872 2 intronic HMGCR homrs149363137 0.0321486
74639546T C179.014 19 intronic HMGCR homrs80116386 0.047524
74642848A T26.0177 6 intronic HMGCR hetrs17244834 0.432308
74647886T C11.3429 1 intronic HMGCR hom
74651084A G221.999 90 intronic HMGCR homrs3846662 0.625LDL cholesterol,Cholesterol, total
74652326T G83.0076 10 intronic HMGCR hetrs17244883 0.0247604
74655726C T58.0073 5 intronic HMGCR hetrs3846663 0.405751cholesterol,Quantitative traits
74656539T C225.009 58UTR3 HMGCR
(NM_000859:c.*372T>C,
NM_001130996:c.*372T>C) het
rs129160.416134 Cholesterol, total,LDL cholesterol

*информацию можно найти в этой ccылке

-23 полиморфизма являются инотронами, 4- экзонами. Также имеется один полиморфизм UTR3- это означает, что snp встречается в 3' некодирующем участке.
-rs имеют 24 snp
-информация о частоте встречаемости полиморфизмов cодержится в столбце 1000genomes
-SNP попали в следующие гены (соответственно там и произошли нуклеотидные и аминокислотные замены): IL7R, CAPSL, HMGCR
- изменения в экзоне гена IL7R могут привести к развитию рассеянного склероза и диабета 1-го типа
изменения в экзоне гена CAPSL могут привести к размитию диабета 1-го типа
изменения в гене HMGCR могут привести к повышению ЛПНП холестерина и просто холестерина


© Nenartovich Marina 2017