Задание было выполнено для одноконцевого чтения экзома человека (fastq), картировавшегося на участок хромосомы человека. Ознакомиться со всеми выполненными командами можно в таблице внизу страницы.
Качество предоставленных прочтений необходимо было проверить с помощью программы FastQC, предустановленной на kodomo.
На Рисунке 1А изображена выдача программы.
Результатом работы этой программы стал архив chr14_fastqc.zip и илюстративный 'chr14_fastq.html'? кторый визуализирует некоторую информацию о чтениях.
Ниже представлена илюстрация из html-выдачи: "Per base quality", на которой изображено качество определения конкретного нуклеотида на каждой позиции рида.
Поле гистограммы поделено на три полосы, по оси ордтнат откладывается значение качества, так что
интутитивно и илюстративно понятно, что чем выше качество, тем лучше прочтение - зелёная зона является предпочтительной.
Для анализа использованы такие статичтические характеристики, как:
Конец ридов закономерно прочитан хуже, западание на область "среднего качества" наблюдается уже 73-й позиции, с 60-72 позицию значения близки к нежелательному диапазону - то есть около 40% позиций вызывают сомнение. Это обьясняется тем, что секвенирование копит ошибки, и с увеличением длины риды процентное содержание проблемных мест в нём растёт. Именно поэтому риды не представлены, по-существу, очень длинным фрагментами - те не репрезентативны.
Очистка осуществлялась с помощью программы Trimmomatic.
На вход команда приняла 8696 ридов, оставив только 8562 - 98.46% от общего количества. Были удалены концы каждго чтения с качеством ниже двадцати по вышеозначенному графику, и все короче 50 пар нуклотидов.
ДО: | ПОСЛЕ: |
Рисунок 1С Basic statistic. Сравнение. | |
Рисунок 1D Per base quality. Сравнение. |
На Рисунке 1С и 1D представлены два пункта выдачи FastQC, до и после чистки. Теперь наглядно можно наблюдать, какие риды были удалены Trimmomatic. Среднее значение сильно поднялось к концу прочтения, ныне лишь последний фрагмент заходит в зону среднего качества, чего, видимо, было не избежать, потому как ранее последний диапазон заходи в красную, совершенно непригодную зону. Изменились длина и число ридов. Рисунок 1С предоставляет характеристики к сравнению: теперь ддины последовательностей варьирутся от 50 до 100 в противовес нижней границе в 30 пар оснований до чистки.
С помощью программы Hisat2 были откартированы очищенные чтения.
Необходимые данные для запуска были перемещены в рабочую директорию и проведён запуск программы:
Слишком обьёмный для иллюстраии log программы доступен к просмотру в файле loghisat.txt,
выдача - в файле hisat.txt.
Программа сконструировала восемь файлов вида chr14.*.ht2, где * - цифра от 1 до 8.
После того, как референсная последовательность была проиндексирована, очищенные чтения были выровнены по индексированной последовательности
- файлам выдачи без разрывов(параметр -no splieced alignment) и подрезания ридов (-no softclip), типичного для концевых участков.
Сначала файл чтений был переведён в формат .bam из формата .sam выдачи hisat (см. предыдущий параграф).
Запуск программы представлен ниже.
Далее происходила сортировка выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате начала чтения. Опция -Т с последующим указанием файла это операция перенаправения временных файлов.
Далее отсортированный файл .bam был проиндексирован, с послежующим выяснением, сколько чтений, в итоге, было откартировано на геном: команды можно наблюдать на Рисунке 3B.
Программа выдала следующий анализ: после названия последовательности идут, последовательно, её длина, число картировавщихся ридов, число некартировавшихся ридов. Можем сравнить данную выдачу с логом программы хисат (Рисунок 2А). Действительно, из 8539 картированных по мнению indxstats ридов все упомянуты hisat, а один, как видно из Рисунка 2А, даже прокартировался более одного раза.
Для анализа так же доступен файл chr14.sam - файл выдачи hisat2.
CHROM | POS | REF | ALT | QUAL | INFO | FORMAT | chr14.sorted.bam |
chr14 | 81448951 | GAAAAAAAAAA | GAAAAAAAAAAAA, GAAAAAAAAAAA, GAAAAAAAAAAAAA | 79.4672 | INDEL;IDV=40;IMF=0.754717;DP=53;VDB=0.765077; SGB=-0.693146;MQSB=1;MQ0F=0;AF1=1;AC1=2; DP4=3,1,21,21;MQ=60;FQ=-63.5253;PV4=0.609302,1,1,1 | GT:PL | 1/1:153,62,33,147,0,112,148,67,154,141 |
chr14 | 81467864 | CAT | C | 217.468 | INDEL;IDV=7;IMF=0.4375;DP=16;VDB=0.365321; SGB=-0.636426;MQSB=1;MQ0F=0;AF1=0.5;AC1=1; DP4=5,4,5,2;MQ=60;FQ=217.468;PV4=0.632867,3.98565e-10,1,1 | GT:PL | 0/1:255,0,255 |
chr14 | 81490813 | G | A | 9.52546 | DP=1;SGB=-0.379885;MQ0F=0;AF1=1;AC1=2; DP4=0,0,0,1;MQ=60;FQ=-29.9906 | GT:PL | 1/1:39,3,0 |
Фрагмент файла выдачи даёт информацию о: позиции полиморфизма(POS), участке в референсной последовательности(REF) и аналогичном участке в чтении(ALT), качестве покрытия(QUAL), информации о типе полиморфизма по мнению программы(INFO), данные о генотипе: 0/1 - диплоидный, гетерозигота (1 - аллель в выравнивании, 0 - в референсе), вероятности этих генотипов=PL(FORMAT и sorted.bam). Но мы позволим себе интерпретировать полиморфизмы по-своему.
С помощью программы annovar были проаннтотированы все замены, не включая индели первоначальнрого файла .vcf.
Сначала был сконструирован vcf-файл без инделей, после этот файл был переведён в нужный формат.
Описанные выше гены:
Prostate cancer | RNASE9 | 21024619 | exon | A | G |
Graves'disease | TSHR | 81451229 | intron | T | C |
Autism | PPP2R5C | 102360745 | intron | G | C |
У пациентов с такими заболеваниями были найдены вышеозначнные мутации, что может, гипотетически, как-то коррелировать с болезнью (ассоциироваться) - а может и нет.
Команда | Функция |
fastqс chr14.fastq | Анализ качества чтений |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq trim14.fastq TRAILING:20 MINLEN:50 | Очистка чтений |
fastqc trim14.fastq | Анализ чтений после чистки |
PATH=${PATH}:/hisat2-2.0.5 | Выход к данным для hisat2 |
hisat2 -x chr14 -U trim14.fastq --no-spliced-alignment --no-softclip -S chr14.sam | Построение выравниваний прочтений и референса в формате .sam |
samtools view chr14.sam -o chr14.bam -b | Перевод файла чтений формата .sam в бинарный формат .bam |
samtools sort -T /tmp/chr14.sorted -o chr14.sorted.bam chr14.bam | Сортировка выравнивания чтений с референсом по координате референса начала чтения |
samtools index chr14.sorted.bam | индексирование последовательности |
samtools idxstats chr14.sorted.bam | Выдача информации о количестве откартировннных на геном чтений |
samtools mpileup -uf chr14.fasta chr14_sort.bam -o snp.bcf | Создание файла полиморфизмов формата .bcf |
bcftools call -cv snp.bcf -o snp.vcf | Перевод файла .bcf в файл .vcf со списком отличий между референсом и чтениями |
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 no_indel.vcf > snp.avinput | Перевод файла формата .vcf в формат avinput для работы в annovar |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных snp |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -building hg19 -dbt ype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных 1000 genomes |
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -out chr14_clinvar -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ | аннотация по базе данных Clinvar |
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out chr14_gwas -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ | аннтоация по базе данных gwas |
:/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr14_rg -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ | аннотация по базе refgene |
На главную страницуВернуться назад
©Solonovich Vera,2017