Ралдугина Василиса

Студентка Факультета биоинженерии и биоинформатики

МГУ имени М.В. Ломоносова

Обо мне

Главная

Сайт ФББ МГУ

Ресеквенирование. Поиск полиморфизмов у человека

I. ПОДГОТОВКА ЧТЕНИЙ


В данном практикуме мы работали с чтениями экзома, картирующимися на участок хромосомы человека. Файл chr9_2.fastq с одноконцевыми чтениями в формате fastq был взят из директории /P/y14/term3/block4/SNP/reads.
Подготовка чтений осуществлялась в несколько этапов:
    Анализ качества прочтений
    Очистка чтений
    Сравнение параметров прочтений до и после очистки

АНАЛИЗ КАЧЕСТВА ПРОЧТЕНИЙ

Анализ прочтений был осуществлен с помощью прогрммы fastQC, установленной на сервере kodomo. Результатом работы программы является html файл и zip архив, содержащие отчет о качестве прочтений. Программа была запущена с помощью следующей команды:

fastqc chr9_2.fastq

ОЧИСТКА ЧТЕНИЙ

Очистка чтений проводилась с использованием программы Trimmomatic. Были удалены чтения с длиной менее 50 нуклеотидов и с концов каждого чтения были отрезаны нуклеотиды с качеством ниже 20. Ниже приведена команда:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr9_2.fastq chr9_2_out.fastq TRAILING:20 MINLEN:50

СРАВНЕНИЕ ПАРАМЕТРОВ ЧТЕНИЙ ДО И ПОСЛЕ ЧИСТКИ

До чистки было 2206 чтений, после чистки стало 2141 чтений. На рисунке 1 изображен контроль качества чтений до чистки. Синей линия - среднее качество чтений, центральные красные линии - медиана, желтые прямоугольники - интерквартальный размах. (разница между верхней и нижней квартилями, диапазон значений качества, при котором качество 25% чтений на данной позиции выше нижней границы, а 75% - не выше верхней). Поле графика разделено на 3 полосы зеленого, желтого и красного цветов, попадание в которые вышеперечисленных элементов графика позволяет сделать вывод о качестве чтений. На рисунке 2 изображен контроль качества чтений до чистки. После чистки все риды располагаются в зеленой области. С помощью чистки мы получили надежные прочтения. Также после чистки стало меньше ридов, так как были удалены риды длинной меньше 50.


Рис 1. Контроль прочтений до чистки.

Рис 2. Контроль прочтений после чистки.

Часть II. Картирование чтений

Чтения были откартированы с помощью программы hisat2. Программа была импортирована с помощью команды:

export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
Таблица 1. Команды, использованные при картировании последовательности.
КомандаФункцияВыдача
hisat2-build chr9_2.fasta chr9_2Индексирование референсной
последовательности
Индексированный файл chr9_2.fasta
hisat2 -x chr9_2 -U chr9_2_out.fastq --no-spliced-alignment --no-softclip >align1.sam Выравнивание чтений после чистки
с референсной последовательностью
Файл, который содержит
выравнивание формата SAM align1.sam

Программа картирования была запущена с параметрами -x (путь к индексу) -U (путь к чтениям) --no-spliced-alignment (запрет на картирование с разрывами) --no-softclip (кртирование без подрезания чтений).
Далее необходимо было проанализировать, полученное выравнивание. Для этого я использовала программу Samtools. Она работает с файлами в формате SAM.
Таблица 2. Команды, использованные для анализа последовательностей в формате sam.
КомандаФункцияВыдача
samtools view align1.sam -bo align1.bamПрограмма переводит файл в формат bamalign1.bam
samtools sort align1.bam -T sorted.txt -o sorted.bamСортировка выравнивания
чтений и референса по
координате в референсе
sorted.bam
samtools index sorted.bamИндексирование отсортированного выравниванияsorted.bam
samtools idxstats sorted.bam > totalread.txtЗапись числа откартировавшихся чтений totalread.txt

Выяснилось, что на хромосому откартировался 2101 рид. 40 ридов не были откартированы вообще.

Часть III: анализ SNP

Таблица 3. Команды, использованные при поиске SNP и инделей.
КомандаФункцияВыдача
samtools mpileup -uf chr9_2.fasta sort.bam > snp.bcfСоздание файла с полиморфизмамиsnp.bcf
bcftools call -cv snp.bcf -o snp.vcfОпределения различийsnp.vcf

В результате были найдены 63 snp. Из них были выбраны 3 штуки и описаны в таблице. У 1 высокое качество прочтения и хорошее покрытие.
Таблица 4. Найденные snp и индели.
КоординатаТип полиморфизмаВ референсеВ чтенияхПокрытие в этом местеКачество покрытия
chr 9:117552885заменаTC73221.999
chr 9:136130610заменаGA34.13269
chr 9:136131592заменаGC736.0081

Далее необходимо было аннотировать полученные SNP. Это произвелось с помощью программы ANNOVAR.
Подготовка входных файлов включала удаление инделей из snp.vcf и использование скрипта convert2annovar.pl (perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/vasidze/snp.vcf > /nfs/srv/databases/ngs/vasidze/snp.avinput).
Затем была проведена аннотация с помощью команд:
  1. dbnsp: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.snp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
  2. 1000genomes: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1000genomes -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/
  3. GWAS: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb/
  4. Clinvar: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.clinvar -dbtype clinvar_20150629 -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
  5. Refgene: perl /nfs/srv/databases/annovar/annotate_variation.pl -out rs.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/

Из всех SNP 56 имеют rs, 7 не имеют.
Для рассмотрения выдачи Clinvar можете проследовать по ссылке: выдача clinvar

Выдача GWAS:
Таблица
КоординатаGwas
chr 9:117552885Crohn's disease
chr 9:117553249Inflammatory bowel disease,Ulcerative colitis
chr 9:124906723Obesity-related traits
chr 9:136131188Coagulation factor levels,Tumor biomarkers
chr 9:136131322mean corpuscular hemoglobin concentration
chr 9:136131415End-stage coagulation
chr 9:136132754Malaria
chr 9:136132908Venous thromboembolism,Malaria
chr 9:136137065Venous thromboembolism,D-dimer levels,Activated partial thromboplastin time
chr 9:136137106Coagulation factor levels

В БД RefSeq SNP подразделяется на exonic, splicing, ncRNA, UTR5 , UTR3, intronic, upstream, downstream, intergenic.
В ходе поиска по RefSeq было установлено, что 3 snp относятся к UTR3, 14 к exonic, 43 к intronic и 2 к downstream.
Помимо этого проводился поиск по базе данных dbsnp. В результате было получено 3 файла .log, .dropped и .filtered. В последнем содержались 7 snp.
Поиск по базе данныз 1000g также дал нам три файла, аналогичные предидущим. В файле .filtered содержатся 7 snp.
Сводная информация по всем аннотациям в трех банка представлена в файле pr11.xlsx

© Raldugina Vasilisa 2016