Практикум 11.Ресеквенирование. Поиск полиморфизмов у человека.
Часть 1
Был сделан контроль качества чтений с помощью программы FastQC.
Команда: fastqc chr13.fastq
Было получено изображение (Рис.1)
(Рис.1)
Затем была проведена очистка чтений при помощи программы Trimmonatic.
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr13.fastq chr13_new.fastq TRAILING:20 MINLEN:50
После чистки качество прочтений представлено на Рис.2
Рис.2
Изначально было 12155 прочтений с длинной 39-100, после чистки осталось 11933 с длинной 50-100.
Качество улушилось, теперь все позиции нуклеотидов по качеству попадают в зеленую область гистограммы,
что свидетельствует
о достоверности данных позиций. Также были обрезаны нуклеотиды с конца каждого прочтения,
с качеством ниже 20, что и наглядно отражено на гистограмме
(заметно короче стал последний столбик).
Часть 2
Картирование чтений
Далее была проиндексирована референская последовательность:
Команда:
hisat2-build chr13.fasta chr13_ind.fasta
Построено выравнивание прочтений и референса в формате .sam
Команда:
hisat2 -x chr13_ind.fasta -U chr13_new.fastq --no-spliced-alignment --no-softclip > align.sam
Анализ выравнивания
Выравнивание чтений с референсом было переведено в бинарный формат .bam.
Команда:
samtools view align.sam -b -o align.bam
Варавнивание чтений с референсом было отсортировано
Команда:
samtools sort -T /tmp/align.sorted -o align.sorted.bam align.bam
Затем проиндексировано
Команды:
samtools index align.sorted.bam
Чтобы понять какое количество чтений было картировано, был просмотрен вывод программы hisat2.
Она показала что 120 чтений
из 11933 не были картированы на референсную последовательность (это составило 1,01%)
Часть III: Анализ SNP
Поиск SNP и инделей.
Сначала был создан файл с полиморфизмами (формат .bcf)
Команда:
samtools mpileup -uf chr13.fasta align.sorted.bam -o align.bcf
И файл уже со списком отличий между референсом и чтениями (в формате .vcf)
Команда:
bcftools call -cv align.bcf -o align.vcf
Таблица полиморфизмов
Координата |
Тип полиморфизма |
Референс |
Чтения |
Глубина покрытия |
Качество чтения |
20006620 |
Замена |
С |
Т |
19 |
221.999 |
25511130 |
Вставка |
Т |
ТСА |
8 |
196.47 |
25527657 |
Делеция |
GAAAA |
GAAA |
44 |
73.4665 |
Анотация SNP
С помощью программы annovar были проаннотированы полученные snp.
Предварительно из файла align.vcf были удалены индели
Всего было найдено 15 инделей.
При помощи convert2annovar.pl был создан файл с которым будет работать Annovar (команда:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 align.vcf > align.avinput)
Snp имеющие rs
Далее из 163 оставшихся snp 24 имеют rs.
Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl
-filter -out rs -build hg19 -dbtype snp138
align.avinput /nfs/srv/databases/annovar/humandb/
Далее SNP были проаннотированы при помощи 5 баз данных.
1) Refgene
Команда: perl /nfs/srv/databases/annovar/annotate_variation.pl
-out refgene -build hg19 align.avinput /nfs/srv/databases/annovar/humandb/
В итоге были получены 3 файла, в одном из которых находились SNP.
Всего было найдено 163 SNP. В таблице приведены виды SNP.
В экзонных областях было найдено 9 SNP ,
4 из которых привели к заменам аминокислот. Все найденные SNP попали в гнеы:TPTE2,
PHF11 ,
COL4A1
4 замены произшли в следующих позициях:
Координата |
До |
После |
Качество чтения |
Глубина |
110818598 |
T |
G |
212.000 |
49 |
110827684 |
T |
A |
15.1417 |
27 |
110804809 |
G |
A |
166.009 |
26 |
110813709 |
G |
A |
221.009 |
46 |
2)Dbsnp
Были проаннатированы по базе данных dbsnp
Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter
-out dbsnp -build hg19 -dbtype snp138 align.avinput /nfs/srv/databases/annovar/humandb/
На выходе были получены 3 файла. В файле .filtered остались 24 snp.
3) Gwas
Аннотация по базе данных Gwas
Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl
-regionanno -build hg19 -out gwas -dbtype
gwasCatalog align.avinput /nfs/srv/databases/annovar/humandb/
В итоге был получен файл, в котором остались 3 snp,имеющие клиническое значение.
Координата |
Клиническое значение |
До |
После |
Качество чтения |
Глубина |
25533831 |
Полиморфизм связанный с ожирением |
A |
C |
225.009 |
78 |
50080847 |
Сердечная гипертрофия |
A |
G |
221.999 |
45 |
110818598 |
Жесткость артерий |
T |
G |
212.009 |
49 |
Два из трех (полиморфизм связанный с сердечной гипертрофией и жесткостью артерий)
находятся в экзонных областях, что может проявится на структуре белков, а значит и повлиять на здоровье человека.
4) Clinvar
База данных Clinvar
Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter
-dbtype clinvar_20150629 -buildver hg19
align.avinput -outfile clinvar /nfs/srv/databases/annovar/humandb/
При этом не было найдено ни одного snp имеющего какое-либо клиническое значение.
5) 1000 Genomes:
Команда:
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype
1000g2014oct_all -buildver hg19 -out 1000genoms
align.avinput /nfs/srv/databases/annovar/humandb/
В файле .filtered осталось 44 snp. Стоит отметить, что все snp, которые были найдены через dbsnp попали сюда.
Сводная таблица по базам данных