Поиск и описание полиморфизмов у пациента

Задание было выполнено для одноконцевого чтения экзома человека (fastq), картировавшегося на участок хромосомы человека. Ознакомиться со всеми выполненными командами можно в таблице внизу страницы.

Первый этап: поготовка чтений.

Анализ качества чтений
Качество предоставленных прочтений необходимо было проверить с помощью программы FastQC, предустановленной на kodomo.
На Рисунке 1А изображена выдача программы.

Рисунок 1А.FastQC через Putty

Результатом работы этой программы стал архив chr14_fastqc.zip и илюстративный 'chr14_fastq.html'? кторый визуализирует некоторую информацию о чтениях.
Ниже представлена илюстрация из html-выдачи: "Per base quality", на которой изображено качество определения конкретного нуклеотида на каждой позиции рида. Поле гистограммы поделено на три полосы, по оси ордтнат откладывается значение качества, так что интутитивно и илюстративно понятно, что чем выше качество, тем лучше прочтение - зелёная зона является предпочтительной. Для анализа использованы такие статичтические характеристики, как:
- Среднее значение качества (синяя линия)
- Медиана значений (красные линии на интервале)
- Интервальный размах (жёлтый прямоугольник) - диапазон, в котором четверть прочтений имеет значение качества по данной позиции не выше нижней границы, а три четверти - не выше верхней.
- Интервальный размах между десятым и девяностым процентилем (черная риска погрешности) - то же самое, что и выше, но с 10% и 90% процентами чтений
Рисунок 1B.Per base quality демонстрирует качество чтений до чистки. Ось X: позиция в ридах, Ось Y: качество определения нуклеотида в позиции.

Конец ридов закономерно прочитан хуже, западание на область "среднего качества" наблюдается уже 73-й позиции, с 60-72 позицию значения близки к нежелательному диапазону - то есть около 40% позиций вызывают сомнение. Это обьясняется тем, что секвенирование копит ошибки, и с увеличением длины риды процентное содержание проблемных мест в нём растёт. Именно поэтому риды не представлены, по-существу, очень длинным фрагментами - те не репрезентативны.
Очистка чтений
Очистка осуществлялась с помощью программы Trimmomatic.
Рисунок 2.Trimmomatic через Putty

На вход команда приняла 8696 ридов, оставив только 8562 - 98.46% от общего количества. Были удалены концы каждго чтения с качеством ниже двадцати по вышеозначенному графику, и все короче 50 пар нуклотидов.
Сравнение исходных параметров с параметрами "почищенного" экзома пациента

ДО: ПОСЛЕ:

Рисунок 1С Basic statistic. Сравнение.

Рисунок 1D Per base quality. Сравнение.

На Рисунке 1С и 1D представлены два пункта выдачи FastQC, до и после чистки. Теперь наглядно можно наблюдать, какие риды были удалены Trimmomatic. Среднее значение сильно поднялось к концу прочтения, ныне лишь последний фрагмент заходит в зону среднего качества, чего, видимо, было не избежать, потому как ранее последний диапазон заходи в красную, совершенно непригодную зону. Изменились длина и число ридов. Рисунок 1С предоставляет характеристики к сравнению: теперь ддины последовательностей варьирутся от 50 до 100 в противовес нижней границе в 30 пар оснований до чистки.

Второй этап: картирование чтений.
Картирование

С помощью программы Hisat2 были откартированы очищенные чтения. Необходимые данные для запуска были перемещены в рабочую директорию и проведён запуск программы:
Слишком обьёмный для иллюстраии log программы доступен к просмотру в файле loghisat.txt, выдача - в файле hisat.txt. Программа сконструировала восемь файлов вида chr14.*.ht2, где * - цифра от 1 до 8.

После того, как референсная последовательность была проиндексирована, очищенные чтения были выровнены по индексированной последовательности - файлам выдачи без разрывов(параметр -no splieced alignment) и подрезания ридов (-no softclip), типичного для концевых участков.

Рисунок 3A. Построение выравнивания
Анализ выравниваний

samtools

Сначала файл чтений был переведён в формат .bam из формата .sam выдачи hisat (см. предыдущий параграф).
Запуск программы представлен ниже.

-b -- выходной файл бинарный
-o -- указание имени выходного файла

Далее происходила сортировка выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате начала чтения. Опция -Т с последующим указанием файла это операция перенаправения временных файлов.

Рисунок 4А. Samtools view и Samtools sort

Далее отсортированный файл .bam был проиндексирован, с послежующим выяснением, сколько чтений, в итоге, было откартировано на геном: команды можно наблюдать на Рисунке 3B.

Рисунок 4B.Информация об откартированных на геном чтениях.

Программа выдала следующий анализ: после названия последовательности идут, последовательно, её длина, число картировавщихся ридов, число некартировавшихся ридов. Можем сравнить данную выдачу с логом программы хисат (Рисунок 2А). Действительно, из 8539 картированных по мнению indxstats ридов все упомянуты hisat, а один, как видно из Рисунка 2А, даже прокартировался более одного раза.

Число невыровненных ридов: 23(0.27%)
Число ридов, выровненных 1 раз: 8538(99.71%)
Число ридов, выровненных более 1 раза: 1 (0.01%)

Для анализа так же доступен файл chr14.sam - файл выдачи hisat2.

Третий этап: анализ SNP .

Поиск SNP и инделей
Файл с полиморфизмами был создан с помощью всё той же программы пакета samtools - samtools mpileup.

Рисунок 5.Samtools mpileup -uf определяют формат входных и выходных файлов

Отличия между референсом и чтениями были определены с помощью команды bcftools call с опциями -cv пакета bcftools. Программа выделила 3 инделя и 87 замен.
Ниже представлены три полиморфизма, выбранные из списка полиморфизмов vsp-файла. С полным можно ознакомиться скачав его.

CHROM	POS	REF	ALT	QUAL	INFO	FORMAT	chr14.sorted.bam
chr14	81448951	GAAAAAAAAAA	GAAAAAAAAAAAA, GAAAAAAAAAAA, GAAAAAAAAAAAAA	79.4672	INDEL;IDV=40;IMF=0.754717;DP=53;VDB=0.765077; SGB=-0.693146;MQSB=1;MQ0F=0;AF1=1;AC1=2; DP4=3,1,21,21;MQ=60;FQ=-63.5253;PV4=0.609302,1,1,1	GT:PL	1/1:153,62,33,147,0,112,148,67,154,141
chr14	81467864	CAT	C	217.468	INDEL;IDV=7;IMF=0.4375;DP=16;VDB=0.365321; SGB=-0.636426;MQSB=1;MQ0F=0;AF1=0.5;AC1=1; DP4=5,4,5,2;MQ=60;FQ=217.468;PV4=0.632867,3.98565e-10,1,1	GT:PL	0/1:255,0,255
chr14	81490813	G	A	9.52546	DP=1;SGB=-0.379885;MQ0F=0;AF1=1;AC1=2; DP4=0,0,0,1;MQ=60;FQ=-29.9906	GT:PL	1/1:39,3,0

Фрагмент файла выдачи даёт информацию о: позиции полиморфизма(POS), участке в референсной последовательности(REF) и аналогичном участке в чтении(ALT), качестве покрытия(QUAL), информации о типе полиморфизма по мнению программы(INFO), данные о генотипе: 0/1 - диплоидный, гетерозигота (1 - аллель в выравнивании, 0 - в референсе), вероятности этих генотипов=PL(FORMAT и sorted.bam). Но мы позволим себе интерпретировать полиморфизмы по-своему.

Первый: двукратная дуплекация участка относительно референсной последовательности. Качество, относительно других прочтений, низкое, но не слишком - самое большое значение варьировалось в районе 200. Глубина покрытия (DP) - 53.
Второй: вставка. Качество очень высокое, в десятке лучших. Глубина покрытия - 16.
Третий: замена. Качество очень низкое, к сожалению, всего 9, глубина покрытия - 1.

Аннотация SNP
С помощью программы annovar были проаннтотированы все замены, не включая индели первоначальнрого файла .vcf.
Сначала был сконструирован vcf-файл без инделей, после этот файл был переведён в нужный формат.
Рисунок 6.
Далее полученный файл аннотировался по разным базам данных, все команды приведены в финальной таблице в конце страницы, мы же поговорим сейчас о выводах. Со всеми выдачами аннотаций можно ознакомиться, скачав excel-файл, интересующие в каждом случае столбцы были выделены оранжевым.
- Наличие идентификатора rs проверялось по базее данных dbsnp (лист snp-rs). Оказалось, что у шести snp из всез 88 нет такого идентификатора.
- Частоты замен были определены по базе 1000genomes, полная аннотация на соответствующем листе таблицы (1000genomes). Самыми распространёнными оказались частоты замен от ~0.3 до ~0.5, медиана = 0.23.
- Известные клинические последствия данных замен были аннотированные по базе Clinvar. Выходной файл оказался пуст, так как для данных snp, видимо, нет известных клинических последствий.
- Клиническая аннотация была получена из базы GWAS (лист gwas).
- Из 88 аннотированных по refgene snp 56 имеют гомо-(hom) замену, и оставшиеся 22 имеют гетеро-(het) замену. Из них 3 попали в экзоны, одна в сплайсинг-вариант, одна в UTR3 нетранслируемую область, одна в междугеновое (intergenic) пространство. Остальные попали в интроны. Замены наблюдаются в генах RNASE9, PPP2R5C, TSHR и в локусе LOC101927081,LINC00645 (лист variant_function).
  Замены в генах наблюдается три, по одной на экзоны каждого гена (лист exonic_function). Из 3 произошедших замен в экзонах, только замена в гене TSHR является синонимичной, когда как другие замены привели к замене аминокислоты.
Описанные выше гены:
- TSHR - ген рецептора тироид-стимулирующего гормона
- RNASE9 - ген рибонуклеазы 9 из семейства РНКаз А
- PPP2R5C - ген регуляторной субъединицы гамма белковой фосфатазы-2
Теперь, опираясь на данные о реальных генах, мы можем делать выводы на основе всех данных табицы: например, самыми распространенными аменами в четырнадцатой хромосоме являются замена тимина на аденин или цитозин в интронах TSHR, или составить сводную табличку, с какими заменами связаны будут возможные наблюдаемые патологии:

Prostate cancer RNASE9 21024619 exon A G

Graves'disease TSHR 81451229 intron T C

Autism PPP2R5C 102360745 intron G C

У пациентов с такими заболеваниями были найдены вышеозначнные мутации, что может, гипотетически, как-то коррелировать с болезнью (ассоциироваться) - а может и нет.

Команда Функция

fastqс chr14.fastq Анализ качества чтений

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq trim14.fastq TRAILING:20 MINLEN:50 Очистка чтений

fastqc trim14.fastq Анализ чтений после чистки

PATH=${PATH}:/hisat2-2.0.5 Выход к данным для hisat2

hisat2 -x chr14 -U trim14.fastq --no-spliced-alignment --no-softclip -S chr14.sam Построение выравниваний прочтений и референса в формате .sam

samtools view chr14.sam -o chr14.bam -b Перевод файла чтений формата .sam в бинарный формат .bam

samtools sort -T /tmp/chr14.sorted -o chr14.sorted.bam chr14.bam Сортировка выравнивания чтений с референсом по координате референса начала чтения

samtools index chr14.sorted.bam индексирование последовательности

samtools idxstats chr14.sorted.bam Выдача информации о количестве откартировннных на геном чтений

samtools mpileup -uf chr14.fasta chr14_sort.bam -o snp.bcf Создание файла полиморфизмов формата .bcf

bcftools call -cv snp.bcf -o snp.vcf Перевод файла .bcf в файл .vcf со списком отличий между референсом и чтениями

perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 no_indel.vcf > snp.avinput Перевод файла формата .vcf в формат avinput для работы в annovar

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных snp

perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -building hg19 -dbt ype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных 1000 genomes

/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -out chr14_clinvar -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе данных Clinvar

/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out chr14_gwas -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннтоация по базе данных gwas

:/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr14_rg -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/ аннотация по базе refgene

Поиск и описание полиморфизмов у пациента

Первый этап: поготовка чтений.

Второй этап: картирование чтений.

Третий этап: анализ SNP .

Вернуться назад

На главную страницу

ДО:	ПОСЛЕ:

Рисунок 1С Basic statistic. Сравнение.

Рисунок 1D Per base quality. Сравнение.

Prostate cancer	RNASE9	21024619	exon	A	G
Graves'disease	TSHR	81451229	intron	T	C
Autism	PPP2R5C	102360745	intron	G	C

Команда	Функция
fastqс chr14.fastq	Анализ качества чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr14.fastq trim14.fastq TRAILING:20 MINLEN:50	Очистка чтений
fastqc trim14.fastq	Анализ чтений после чистки
PATH=${PATH}:/hisat2-2.0.5	Выход к данным для hisat2
hisat2 -x chr14 -U trim14.fastq --no-spliced-alignment --no-softclip -S chr14.sam	Построение выравниваний прочтений и референса в формате .sam
samtools view chr14.sam -o chr14.bam -b	Перевод файла чтений формата .sam в бинарный формат .bam
samtools sort -T /tmp/chr14.sorted -o chr14.sorted.bam chr14.bam	Сортировка выравнивания чтений с референсом по координате референса начала чтения
samtools index chr14.sorted.bam	индексирование последовательности
samtools idxstats chr14.sorted.bam	Выдача информации о количестве откартировннных на геном чтений
samtools mpileup -uf chr14.fasta chr14_sort.bam -o snp.bcf	Создание файла полиморфизмов формата .bcf
bcftools call -cv snp.bcf -o snp.vcf	Перевод файла .bcf в файл .vcf со списком отличий между референсом и чтениями
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 no_indel.vcf > snp.avinput	Перевод файла формата .vcf в формат avinput для работы в annovar
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/	аннотация по базе данных snp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out /nfs/srv/databases/ngs/solera/rs -building hg19 -dbt ype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/	аннотация по базе данных 1000 genomes
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -out chr14_clinvar -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/	аннотация по базе данных Clinvar
/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out chr14_gwas -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/	аннтоация по базе данных gwas
:/nfs/srv/databases/ngs/solera$ perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr14_rg -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb/	аннотация по базе refgene