Главная Oбо мне Семестры Контактная информация

Практикум 11. Ресеквенирование. Поиск полиморфизмов у человека.

Таблица 1. Задания и команды.

№ заданиязаданиекоманда

Часть I: подготовка чтений

1. Анализ качества чтенийконтроль качества чтений с помощью программы FastQCfastqs chr20.fastq
2. Очистка чтенийочистка чтений с помощью программы Trimmomatic. Отрезала с конца каждого чтения нуклеотиды с качеством ниже 20, оставила только чтения длиной не меньше 50 нуклеотидов java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq ex2.fastq TRAILING:20 MINLEN:50

Часть II: картирование чтений

3 картирование чтенийэкспорт Hisat Hisat2 export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
проиндексировала референсную последовательность hisat2-build chr20.fastq>ex3
построила выравнивание прочтений и референса в формате .sam. hisat2 -x /nfs/srv/databases/ngs/chashnikova98/ex3 -U /nfs/srv/databases/ngs/chashnikova98/ex2.fastq --no-softclip --no-spliced-alignment >chr20.sam
4.Анализ выравнивания Перевела выравнивание чтений с референсом в бинарный формат .bamsamtools view -b chr20.sam>chr20.bam
Отсортировала выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения samtools sort chr20.sam>chr20sort
Проиндексировала отсортированный .bam файл командой samtools indexsamtools index chr20.bam

Часть III: Анализ SNP

5. Поиск SNP и инделей. Создала файл с полиморфизмами в формате .bcfsamtools mpileup -uf chr20.fasta chr20_sorted.bam -o chr20_snp.bcf
Создала файл со списком отличий между референсом и чтениями в формате .vcfbcftools call -cv snp.bcf -o snp.vcf
Создала файл для работы annovar./convert2annovar.pl -format vcf4 polymorf.vcf -outfile polymorf.avinput
6. Аннотация SNP. С помощью программы annovar проаннотировала полученные snp:
использовала базу данных refgeneperl /nfs/srv/databases/annovar/annotate_variation.pl -out rs.refgene -build hg19 polymorf.avinput /nfs/srv/databases/annovar/humandb/
dbsnpperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.snp -build hg19 -dbtype snp138 polymorf.avinput /nfs/srv/databases/annovar/humandb/
1000 genomesperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1000g -buildver hg19 -dbtype 1000g2014oct_all polymorf.avinput /nfs/srv/databases/annovar/humandb/
Gwasperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.gwas -build hg19 -dbtype gwasCatalog polymorf.avinput /nfs/srv/databases/annovar/humandb/
Clinvarperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.clinvar -dbtype clinvar_20150629 -buildver hg19 polymorf.avinput /nfs/srv/databases/annovar/humandb/

Часть1. Очистка чтений

качество прочтений до очисткикачество прочтений после очистки
количество чтений до очисткиколичество чтений после очистки
46614472

После очистки были исключены короткие чтения(длиной до 50 пар оснований), а также концы чтений, имеющие низкое качество. Таким образом мы повысили достоверность чтений, избежав допуск вероятных ошибок:

  • короткие риды - чтение захватывает последовательности адаптеров (пропск последовательности днк между ними)
  • ошибки в концах чтений за счет неправильной работы полимеразы
  • Часть2. Картирование чтений

    Рис1. Вывод hisat2 --no-spliced-alignment --no-softclip -x chr20ind -U ex2.fastq -S align.sam

    Как мы видим 17 чтений не были выровнены вообще, а 4455 выровнены 1 раз.

    Часть III: Анализ SNP

    Всего найдено 41 полиморфизм, все - точечные однонуклеотидные замены.

    Таблица 2. Примеры полиморфизмов.

    хромосоматип полиморфизмакоординатав референсе в ридахкачество покрытияпокрытие
    chr20 33903158заменаG A 3.01394 1
    chr20 33913681заменаA C 6.20226 1
    chr20 33918910заменаC T 73.0074 15

    Таблица 3. Примеры полиморфизмов, аннотированных в разных базах данных.

    Координата SNP Quality и DPrefgenedbsnp1000 genomesGwasClinvar
    34025983замена A на G176.016upstream homrs1433830.3718-остеоартрит
    33913681замена A на C6.20226intronic homrs60603720.326--
    48522330замена G на A196.009exonic hetrs4953370.3976псориаз-

    Всего rs есть у 30 полиморфизмов (нет у 11, по базе данных dbsnp). По базе данных 1000 геномов аннотированно 29, частота встречаемости от 0,1% до 98,61% (медиана 35,39%). GWAS - всего аннотировано 3 полиморфизма, связанных с весом, псориазом и атрофией гиппокампа. В Clinvar аннотирован 1 полиморфизм, связанный с остеоартритом. В RefSeq полиморфизмы подразделяются на exonic (внутри гена) , intergenic (пересечение генов), UTR5 (5'-нетранслируемая область) , UTR3 (3'-нетранслируемая область), intronic (интрон), upstream (у сайта начала транскрипции), downstream (у сайта окончания трансрипции), intergenic (пересечение генов).

    Refgene: интронные - 29, внутри экзона - 8, 3 - на пересечении генов, upstream - 2, UTR5 -1. Как можно заметить больше всего полиморфизмов найдено в интронах, что логично, т.к. во-первых интронов в геноме намного больше, а во-вторых, мутации в интронах не так критичны для организма как мутации в экзонах. Также были найдены полиморфизмы на пересечении генов, upstream и UTR5, но их было значительно меньше.

    Сводная таблица полиморфизмов


    © Чашникова Анастасия, 2016