Рассеквенирование. Поиск полиморфизмов у человека

Меню

На главную

Третий семестр

Подготовка чтений

Перед поиском полиморфизмов проверила качество прочтений([1],Табл.3.). Оно оказалось ниже требуемого(20), поэтому надо было удалить основания с плохим качеством. Короткие последовательности(<50 пар оснований) тоже не нужны и будут удалены. ([2], Табл.3.) На рисунке 2 представлены чтения после обработки.

Рис.1 Изображение качества оснований из результатов FastQC до обработки Trimmomatic.

Рис.2 Изображение качества оснований из результатов FastQC после обработки Trimmomatic.

Из рисунков 1-2 видно, что после использования Trimmomatic улучшилось качество чтений(особенно у концевых оснований). Также изменилось количество последовательностей: было 10701, стало 10534.

Картирование чтений

Получено выравнивание прочтений и проиндексированной([3],Табл.3) рефересной последовательности с помощью алгоритма mem([4], Табл.3). Далее выравнивание было переведено в двоичный формат([5], Табл.3), отсортировано по началу в референсе([6], Табл.3) и заново проиндексировано, но уже с помощью samtools.([7], Табл.3) На геном откартировались все чтения, кроме одного(10333 чтения из 10334).([8], Табл.3)

Анализ SNP

Был получен файл с полиморфизмами([9], Табл.3) и файла со списком отличий между референсом и чтениями.([10], Табл.3) В нем найдено 102 полимофизма и 6 иделей. В таблице 1 приведены три полиморфизма: один с самым большим качеством, второй с самой большой глубиной чтений и индель. В целом в файле покрытие от 1 до 98. Много(37) полиморфизмов с покрытием 1. В среднем покрытие около 13. Качество от 3,54577 до 226.13. Качество ридов было улучшено до 20. Но в итоге качество некоторых полиморфизмов заметно меньше 20. Так же у этих полиморфизмов глубина всего 1. Т.е. такой полиморфизм встретился только в одном прочтении.

Табл.1. Примеры полиморфизмов.

Координата Тип полиморфизма Нуклеотид из референса Нуклеотид из чтений Качество чтения Глубина покрытия
5085859 Замена G C 226.13 15
5090641 Замена G A 221.999 98
136132908 Индель T TC 214.458 INDEL

Аннотация SNP

Удалила индели из файла с полиморфизмами. Скопировала скрипты annotate_variation.pl и convert2annovar.pl в свою директорию и воспользовалась последним, чтобы получить файл для annovar.([11], Табл.3)
refgene - gene-based annotation ([12], Табл.3)

Табл.2. Категории полиморфизмов по месту нахождения в хромосоме.

Категория Место в хромосоме Количество snp
exonic в экзоне 15
intronic в интроне 78
UTR3 в 3'-нетранслируемой области 7
UTR5 в 5'-нетранслируемой области -
downstream участок в 1000 оснований в после сайта конца транскрипции 2
upstream участок в 1000 оснований в перед сайтом начала транскрипции -
splicing 2 пары оснований около на участке, где был сплайстинг -
intergenic в области между генами -
ncRNA нетранслируемый транскрипт -
Полиморфизмы попали в три гена: JAK2(связан с хроническими миелопролиферативными заболеваниями), IL33(белок IL33 - цитокин с иммунорегуляторными свойствами) и ABO(белки системы определения группы крови).
dbsnp - filter-based annotation([13], Табл.3)
С помощью скрипта выяснила, какие snp имеют rs(т.е. имеют свое имя). Только 7 штук из 102 не имеют rs.
1000 genomes - filter-based annotation([14], Табл.3)
9 полиморфизмов встречаются в геномах этой 1000 людей с частотой меньше 5%.
Gwas - region-based annotation([15], Табл.3)
Найдено 8 полиморфизмов, которые могут быть связанны с заболеваниями: болезнь Крона, эндометриоз, малярия, венозный тромбоэмболизм, опухоль и факторы коагуляции.
Clinvar - filter-based annotation([16], Табл.3)
Было найдено 3 полиморфизма: два отвечают за группу крови и один неспецифичный.
Ссыслка на сводную таблицу с аннотациями по всем банкам данных.

Команда Что делает(результат)
1 fastqc chr9_1.fastq Анализ качества чтений. (Архив и html-страница)
2 java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr9_1.fastq chr9_1c.fastq LEADING:20 TRAILING:20 MINLEN:50 Очистка чтений. (Файл с чтениями качеством не меньше 20 и длиной не меньше 50)
3 bwa index chr9.fasta Индексирование референсной последовательности. (Исходный файл, но с проиндексированной последовательностью)
4 bwa mem chr9.fasta chr9_1c.fastq > align.sam Выравнивание прочтений и референса. (Файл в формате .sam с выравниванием)
5 samtools view -b align.sam -o align.bam Перевод выравниваний в бинарный формат. (Файл с выравниванием в формате .bam)
6 samtools sort -T /ngs/askorzina/align_sorted align.bam -o align_sorted.bam Сортировка выравниваний по координате начала чтения в референсе. (Файл с отсортированными выранвниваниями)
7 samtools index align_sorted.bam Индексирование выравниваний. (Новый файл не создается)
8 samtools idxstats align_sorted.bam Анализ количества откартированных на геном чтений. (В выводном потоке таблица с откартированными чтениями)
9 samtools mpileup -uf chr9.fasta align_sorted.bam > polym.bcf Получение файла с полиморфизмами. (Файл в формате .bcf)
10 bcftools call -cv polym.bcf > polym.vcf Получение списка отличий между референсом и чтениями. (Файл в формате .vcf)
11 perl ./convert2annovar.pl -format vcf4 polym.vcf -outfile polym.avinput Перевод файла с полиморфизамами в формат, с которым работает annovar. (Файл в формате .avinput)
12 perl annotate_variation.pl -out ex1 -build hg19 polymanv.avinput ../../annovar/humandb/ Аннотация refgene(Файл в формате .variant_function с категориями полиморфизмов)
13 perl annotate_variation.pl -filter -out ex1 -build hg19 -dbtype snp138 polymanv.avinput ../../annovar/humandb/ Аннотация dbsnp(Список полиморфизмов и их rs ex1.hg19_snp138_dropped, список полиморфизмов, у которых нет rs, - ex1.hg19_snp138_filtered)
14 perl annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out ex2 polymanv.avinput ../../annovar/humandb/ Аннотация 1000 genomes(ex2.hg19_ALL.sites.2014_10_dropped - список полиморфизмов с частотой встречаемости, ex2.hg19_ALL.sites.2014_10_filtered - полиморфизмы, встречающиеся реже, чем в 5% геномов)
15 perl annotate_variation.pl -regionanno -build hg19 -out ex3 -dbtype gwasCatalog polymanv.avinput ../../annovar/humandb/ Аннотация Gwas(ex3.hg19_gwasCatalog - список полиморфизмов с клиническим значением)
16 perl annotate_variation.pl polymanv.avinput ../../annovar/humandb/ -filter -dbtype clinvar_20150629 -buildver hg19 -out ex4 Аннотация Clinvar(ex4.hg19_clinvar_20150629_filtered - список полиморфизмов с клиническим значением)

© Корзина Анастасия, 2015