Поиск и описание полиморфизмов у пациента

Задание было выполнено для одноконцевого чтения экзома человека (fastq), картировавшегося на участок хромосомы человека. Ознакомиться со всеми выполненными командами можно в таблице внизу страницы.

Первый этап: поготовка чтений.

  1. Анализ качества чтений

    Качество предоставленных прочтений необходимо было проверить с помощью программы FastQC, предустановленной на kodomo.
    На Рисунке 1А изображена выдача программы.

    Рисунок 1А.FastQC через Putty

    Результатом работы этой программы стал архив chr14_fastqc.zip и илюстративный 'chr14_fastq.html'? кторый визуализирует некоторую информацию о чтениях.
    Ниже представлена илюстрация из html-выдачи: "Per base quality", на которой изображено качество определения конкретного нуклеотида на каждой позиции рида. Поле гистограммы поделено на три полосы, по оси ордтнат откладывается значение качества, так что интутитивно и илюстративно понятно, что чем выше качество, тем лучше прочтение - зелёная зона является предпочтительной. Для анализа использованы такие статичтические характеристики, как:

    Рисунок 1B.Per base quality демонстрирует качество чтений до чистки. Ось X: позиция в ридах, Ось Y: качество определения нуклеотида в позиции.

    Конец ридов закономерно прочитан хуже, западание на область "среднего качества" наблюдается уже 73-й позиции, с 60-72 позицию значения близки к нежелательному диапазону - то есть около 40% позиций вызывают сомнение. Это обьясняется тем, что секвенирование копит ошибки, и с увеличением длины риды процентное содержание проблемных мест в нём растёт. Именно поэтому риды не представлены, по-существу, очень длинным фрагментами - те не репрезентативны.

  2. Очистка чтений

    Очистка осуществлялась с помощью программы Trimmomatic.

    Рисунок 2.Trimmomatic через Putty

    На вход команда приняла 8696 ридов, оставив только 8562 - 98.46% от общего количества. Были удалены концы каждго чтения с качеством ниже двадцати по вышеозначенному графику, и все короче 50 пар нуклотидов.

  3. Сравнение исходных параметров с параметрами "почищенного" экзома пациента

    ДО:ПОСЛЕ:
    Рисунок 1С Basic statistic. Сравнение.
    Рисунок 1D Per base quality. Сравнение.

    На Рисунке 1С и 1D представлены два пункта выдачи FastQC, до и после чистки. Теперь наглядно можно наблюдать, какие риды были удалены Trimmomatic. Среднее значение сильно поднялось к концу прочтения, ныне лишь последний фрагмент заходит в зону среднего качества, чего, видимо, было не избежать, потому как ранее последний диапазон заходи в красную, совершенно непригодную зону. Изменились длина и число ридов. Рисунок 1С предоставляет характеристики к сравнению: теперь ддины последовательностей варьирутся от 50 до 100 в противовес нижней границе в 30 пар оснований до чистки.

    Второй этап: картирование чтений.

  4. Картирование

    С помощью программы Hisat2 были откартированы очищенные чтения. Необходимые данные для запуска были перемещены в рабочую директорию и проведён запуск программы:
    Слишком обьёмный для иллюстраии log программы доступен к просмотру в файле loghisat.txt, выдача - в файле hisat.txt. Программа сконструировала восемь файлов вида chr14.*.ht2, где * - цифра от 1 до 8.

    После того, как референсная последовательность была проиндексирована, очищенные чтения были выровнены по индексированной последовательности - файлам выдачи без разрывов(параметр -no splieced alignment) и подрезания ридов (-no softclip), типичного для концевых участков.

    Рисунок 3A. Построение выравнивания

  5. Анализ выравниваний

  6. С помощью пакета samtools была произведён анализ выравнивания.

    Сначала файл чтений был переведён в формат .bam из формата .sam выдачи hisat (см. предыдущий параграф).
    Запуск программы представлен ниже.

    Далее происходила сортировка выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате начала чтения. Опция -Т с последующим указанием файла это операция перенаправения временных файлов.

    Рисунок 4А. Samtools view и Samtools sort

    Далее отсортированный файл .bam был проиндексирован, с послежующим выяснением, сколько чтений, в итоге, было откартировано на геном: команды можно наблюдать на Рисунке 3B.

    Рисунок 4B.Информация об откартированных на геном чтениях.

    Программа выдала следующий анализ: после названия последовательности идут, последовательно, её длина, число картировавщихся ридов, число некартировавшихся ридов. Можем сравнить данную выдачу с логом программы хисат (Рисунок 2А). Действительно, из 8539 картированных по мнению indxstats ридов все упомянуты hisat, а один, как видно из Рисунка 2А, даже прокартировался более одного раза.


    Итого:

    Для анализа так же доступен файл chr14.sam - файл выдачи hisat2.

    Третий этап: анализ SNP .

  7. Поиск SNP и инделей
    Файл с полиморфизмами был создан с помощью всё той же программы пакета samtools - samtools mpileup.
    Рисунок 5.Samtools mpileup -uf определяют формат входных и выходных файлов
    Отличия между референсом и чтениями были определены с помощью команды bcftools call с опциями -cv пакета bcftools. Программа выделила 3 инделя и 87 замен.
    Ниже представлены три полиморфизма, выбранные из списка полиморфизмов vsp-файла. С полным можно ознакомиться скачав его.
    CHROM POS REF ALT QUAL INFO FORMAT chr14.sorted.bam
    chr14 81448951 GAAAAAAAAAA GAAAAAAAAAAAA,
    GAAAAAAAAAAA,
    GAAAAAAAAAAAAA
    79.4672 INDEL;IDV=40;IMF=0.754717;DP=53;VDB=0.765077;
    SGB=-0.693146;MQSB=1;MQ0F=0;AF1=1;AC1=2;
    DP4=3,1,21,21;MQ=60;FQ=-63.5253;PV4=0.609302,1,1,1
    GT:PL 1/1:153,62,33,147,0,112,148,67,154,141
    chr14 81467864 CAT C 217.468 INDEL;IDV=7;IMF=0.4375;DP=16;VDB=0.365321;
    SGB=-0.636426;MQSB=1;MQ0F=0;AF1=0.5;AC1=1;
    DP4=5,4,5,2;MQ=60;FQ=217.468;PV4=0.632867,3.98565e-10,1,1
    GT:PL 0/1:255,0,255
    chr14 81490813 G A 9.52546 DP=1;SGB=-0.379885;MQ0F=0;AF1=1;AC1=2;
    DP4=0,0,0,1;MQ=60;FQ=-29.9906
    GT:PL 1/1:39,3,0

    Фрагмент файла выдачи даёт информацию о: позиции полиморфизма(POS), участке в референсной последовательности(REF) и аналогичном участке в чтении(ALT), качестве покрытия(QUAL), информации о типе полиморфизма по мнению программы(INFO), данные о генотипе: 0/1 - диплоидный, гетерозигота (1 - аллель в выравнивании, 0 - в референсе), вероятности этих генотипов=PL(FORMAT и sorted.bam). Но мы позволим себе интерпретировать полиморфизмы по-своему.

  8. Аннотация SNP

    С помощью программы annovar были проаннтотированы все замены, не включая индели первоначальнрого файла .vcf.
    Сначала был сконструирован vcf-файл без инделей, после этот файл был переведён в нужный формат.

    Рисунок 6.
    Далее полученный файл аннотировался по разным базам данных, все команды приведены в финальной таблице в конце страницы, мы же поговорим сейчас о выводах. Со всеми выдачами аннотаций можно ознакомиться, скачав excel-файл, интересующие в каждом случае столбцы были выделены оранжевым.

    Описанные выше гены:

    Теперь, опираясь на данные о реальных генах, мы можем делать выводы на основе всех данных табицы: например, самыми распространенными аменами в четырнадцатой хромосоме являются замена тимина на аденин или цитозин в интронах TSHR, или составить сводную табличку, с какими заменами связаны будут возможные наблюдаемые патологии:

    Prostate cancer RNASE921024619 exon A G
    Graves'disease TSHR 81451229 intron T C
    Autism PPP2R5C102360745 intron G C

    У пациентов с такими заболеваниями были найдены вышеозначнные мутации, что может, гипотетически, как-то коррелировать с болезнью (ассоциироваться) - а может и нет.

КомандаФункция
fastqс chr14.fastqАнализ качества чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq trim14.fastq TRAILING:20 MINLEN:50 Очистка чтений
fastqc trim14.fastq Анализ чтений после чистки
PATH=${PATH}:/hisat2-2.0.5Выход к данным для hisat2
hisat2 -x chr14 -U trim14.fastq --no-spliced-alignment --no-softclip -S chr14.sam Построение выравниваний прочтений и референса в формате .sam
samtools view chr14.sam -o chr14.bam -bПеревод файла чтений формата .sam в бинарный формат .bam
samtools sort -T /tmp/chr14.sorted -o chr14.sorted.bam chr14.bam Сортировка выравнивания чтений с референсом по координате референса начала чтения
samtools index chr14.sorted.bamиндексирование последовательности
samtools idxstats chr14.sorted.bam Выдача информации о количестве откартировннных на геном чтений
samtools mpileup -uf chr14.fasta chr14_sort.bam -o snp.bcf Создание файла полиморфизмов формата .bcf
bcftools call -cv snp.bcf -o snp.vcf Перевод файла .bcf в файл .vcf со списком отличий между референсом и чтениями
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 no_indel.vcf > snp.avinput Перевод файла формата .vcf в формат avinput для работы в annovar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных snp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -building hg19 -dbt ype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных 1000 genomes
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -out chr14_clinvar -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных Clinvar
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out chr14_gwas -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннтоация по базе данных gwas
:/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr14_rg -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе refgene


Вернуться назад

На главную страницу


©Solonovich Vera,2017