Задача: Найти и описать полиморфизмы у пациента


1)подготовка чтений

Анализ чтений с помощью программы FastQC.
Исходные данные:chr20.fastq
Команды: fastqc chr20.fastq
Результат:chr20.fastqc.html

С помощью программы Trimmomatic была проведена очистка чтений.
Исходные данные:chr20.fastq
Команды: java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr20.trim.fastq TRAILING:20 MINLEN:50
Результат:chr20.trim.fastq

качество прочтений до очисткикачество прочтений после очистки
количество чтений до очисткиколичество чтений после очистки
46614472


После очистки были исключены короткие чтения (длиной до 50 пар оснований), а также концы чтений, имеющие низкое качество. Таким образом была повышена достоверность чтений (пожертвовав 189 самыми недостоверными чтениями), избежав допуск вероятных ошибок:

2)картирование чтений
Подключение HISAT2
Команды: export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5


Индексирование референсной последовательности
Исходные данные:chr20.fasta
Команды: hisat2-build chr20.fasta chr20 > hisat2-build.log
Результат:chr20, hisat2-build.log

Выравнивание прочтений и референса в формате .sam.
Исходные данные:
Команды: hisat2 --no-spliced-alignment --no-softclip -x chr20 -U chr20.trim.fastq -S chr20.sam 2> hisat2.log
Результат:chr20.sam, hisat2.log

Анализ выравнивания
Исходные данные:chr20.sam
Команды: samtools view chr20.sam -o chr20.bam
samtools sort chr20.bam -o chr20.sort.bam
samtools index chr20.sort.bam
Результат:chr20.bam, chr20.sort.bam

4472 reads; of these:
  4472 (100.00%) were unpaired; of these:
    17 (0.38%) aligned 0 times
    4455 (99.62%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
99.62% overall alignment rate

17 чтений не были выровнены вообще, а 4455 выровнены 1 раз.

3)Анализ SNP

Создание файл с полиморфизмами в формате .bcf
Команды: samtools mpileup -uf chr20.fasta chr20.sort.bam -o snp.bcf
Результат:snp.bcf

Создание файл со списком отличий между референсом и чтениями в формате .vcf
Команды: bcftools call -cv snp.bcf -o snp.vcf
Результат:snp.vcf

Создание файла для работы annovar
Команды: ./convert2annovar.pl -format vcf4 polymorf.vcf -outfile polymorf.avinput

Следующие команды необходимы для аннотирования полученных snp при помощи программы annovar:
БД refgene
Команды: perl /nfs/srv/databases/annovar/annotate_variation.pl -out rs.refgene -build hg19 polymorf.avinput /nfs/srv/databases/annovar/humandb/

БД dbsnp
Команды: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.snp -build hg19 -dbtype snp138 polymorf.avinput /nfs/srv/databases/annovar/humandb/

БД 1000 genomes
Команды: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1000g -buildver hg19 -dbtype 1000g2014oct_all polymorf.avinput /nfs/srv/databases/annovar/humandb/

БД Gwas
Команды: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.gwas -build hg19 -dbtype gwasCatalog polymorf.avinput /nfs/srv/databases/annovar/humandb/

БД Clinvar
Команды: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.clinvar -dbtype clinvar_20150629 -buildver hg19 polymorf.avinput /nfs/srv/databases/annovar/humandb/

Всего найден 41 полиморфизм (а именно точечные однонуклеотидные замены). Примеры полиморфизмов:
хромосоматип полиморфизмакоординатав референсе в ридахкачество покрытияпокрытие
chr20 33903158заменаG A 3.01394 1
chr20 33913681заменаA C 6.20226 1
chr20 33918910заменаC T 73.0074 15

Примеры полиморфизмов, аннотированных в разных базах данных:

Координата SNP Quality и DPrefgenedbsnp1000 genomesGwasClinvar
34025983замена A на G176.016upstream homrs1433830.3718-остеоартрит
33913681замена A на C6.20226intronic homrs60603720.326--
48522330замена G на A196.009exonic hetrs4953370.3976псориаз-

Всего rs есть у 30 полиморфизмов (нет у 11, по базе данных dbsnp).
По базе данных 1000 геномов аннотированно 29, частота встречаемости от 0,1% до 98,61% (медиана 35,39%).
GWAS - всего аннотировано 3 полиморфизма, связанных с весом, псориазом и атрофией гиппокампа.
В Clinvar аннотирован 1 полиморфизм, связанный с остеоартритом.
В RefSeq полиморфизмы подразделяются на exonic (внутри гена), intergenic (пересечение генов), UTR5 (5'-нетранслируемая область), UTR3 (3'-нетранслируемая область), intronic (интрон), upstream (у сайта начала транскрипции), downstream (у сайта окончания трансрипции), intergenic (пересечение генов).
Refgene: интронные - 29, внутри экзона - 8, 3 - на пересечении генов, upstream - 2, UTR5 -1.
Как можно заметить больше всего полиморфизмов найдено в интронах, поскольку интронов в геноме намного больше, кроме того мутации в интронах не так критичны для организма как мутации в экзонах. Также были найдены полиморфизмы на пересечении генов, upstream и UTR5, но их было значительно меньше.
Сводная таблица полиморфизмов

Источники:
[1] Презентация к 11 занятию.


© Матвеев Андрей, 2017 AD