Учебный сайт Сергея Пушкарева

Навигация по сайту:

Ресеквенирование. Поиск полиморфизмов у человека

Анализ и очистка чтений

Использовавшиеся команды
Команда Комментарий
fastqc chr9_1.fastq Создает .html страницу с отчетом и .zip архив с содержимым страницы, а также логи.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 ../chr9_1.fastq 91-50.trimmed.fastq TRAILING:20 MINLEN:50 Убирает из рида нуклеотиды с phred score меньше 20 и удаляет риды, в которых удалилось больше половины нуклеотидов(изначально длина всех ридов 100).

Из предложенных двух .fastq файлов для девятой хромосомы был выбран chr9_1.fastq, так как в нем больше ридов. Ниже приведен Per base sequence quality из отчета fastqc для необработанного trimmomatic файла.

После очистки с помощью trimmomatic картина намного улучшается:

Стоит заметить, что число ридов после очистки сократилось всего на 165(было 10701, стало 10536): в число удаленных ридов попали риды, состоящие более чем наполовину(50 нуклеотидов) из оснований с phred score меньше 20.

Картирование ридов

Использовавшиеся команды
Команда Комментарий
PATH=$PATH:/home/students/y06/anastaisha_w/hisat2-2.0.5 Позволяет bash искать исполняемые файлы в указанной директории
hisat2-build chr9.fasta chr9 Индексирует референсную последовательность для последующей обработки
hisat2 -x chr9 -U ../trim/91-50.trimmed.fastq -S ../mapped_reads.sam --no-spliced-alignment --no-softclip 2> hisat2.log Накладывает риды на геном. -х — префикс .ht2 файлов, созданных hisat2-build, -U — файл со чтениями, -S выходной файл .sam, --no-spliced-alignment указывает, что рид должен лечь непрерывно, --no-softclip не позволяет наложиться какой-то части рида, игнорируя то, что на концах ,"2>" перенаправляет вывод программы в лог-файл(hisat2 печатает лог на stderr).

Анализ выравнивания

Использовавшиеся команды
Команда Комментарий
samtools view -b -o mapped_reads.bam mapped_reads.sam Перевод .sam в бинарный вид .bam.
samtools sort mapped_reads.bam mapped_reads_sorted Сортирует выравнивания ридов в соответствии с их порядком в геноме
samtools index mapped_reads_sorted.bam Индексация выравниваний

Вывод hisat2:

10536 reads; of these:
  10536 (100.00%) were unpaired; of these:
    73 (0.69%) aligned 0 times
    10461 (99.29%) aligned exactly 1 time
    2 (0.02%) aligned >1 times
99.31% overall alignment rate

Как видно отсюда, большинство(10461) ридов легли на геном ровно один раз. Не были наложены 73 рида и два наложились более одного раза.

Поиск SNP и инделей

Использовавшиеся команды
Команда Комментарий
samtools mpileup -uf chr9.fasta -o polymorph.bcf mapped_reads_sorted.bam Создает файл с полиморфизмами в формате .bcf, -u указывает на отсутствие сжатия выходного файла, после -f идет референсная последовательность.
bcftools call -cv polymorph.bcf -o polymorph.vcf Делает из .bcf .vcf.

В таблице ниже описаны три полиморфизма из файла .vcf.

# Координата Тип полиморфизма Референс/Чтение Глубина покрытия Качество чтений
1 4985879 SNP A/G 30 225.009
2 5090641 SNP G/A 98 221.999
3 136133380 INDEL CGGGG/CG -* 214.475

*Не указано.

Итого получилось 111 полиморфизмов: 5 инделей и 106 SNP.

С помощью MS excel получили информацию о покрытии и качестве прочтений SNP. Покрытие варьирует от 1 рида до 98, среднее покрытие — 12,16981132(медиана 3), качество варьирует от 3,54557 до 226,13, среднее значение — 79,604775(медиана 28,39195). Таким образом, риды распределяются по геному неравномерно.

Аннотация SNP

Базы данны для аннотации были найдены по адресу /nfs/srv/databases/annovar/humandb.old/.

Использовавшиеся команды
Команда Комментарий
vcftools --vcf polymorph.vcf --remove-indels --recode --recode-INFO-all --out poly_SNP Избавляемся от инделей. --vcf — название входного файла, --remove-indels — то что мы собственно просим, --recode и --recode-INFO-all позволяет сохранить поле INFO в полученном vcf файле(по дефолту оно удаляется).
convert2annovar.pl -format vcf4 poly_SNP.vcf > poly_SNP.avinput Переводит .vcf в формат annovar.
annotate_variation.pl -filter -out snp138_filtered -build hg19 -dbtype snp138 poly_SNP.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по dbSNP.
annotate_variation.pl -out refGene_filtered -build hg19 poly_SNP.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по RefGene.
annotate_variation.pl -filter -out 1000g -build hg19 -dbtype 1000g2014oct_all poly_SNP.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по 1000 Genomes.
annotate_variation.pl -regionanno -out gwas -build hg19 -dbtype gwasCatalog poly_SNP.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по GWAS.
annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20150629 poly_SNP.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по ClinVar.

RefSeq делит snp по их расположению в гене на следующие категории:

Категория Комментарий
exonic Вариант в кодирующем экзоне
splicing Вариант в 2 парах оснований от сайта сплайсинга
ncRNA Вариант в транскрипте, для которого в данной аннотации (refSeq, Ensembl, etc.)
не указано наличие кодирующего региона
UTR5 Вариант в 5'-нетранслируемой области
UTR3 Вариант в 3'-нетранслируемой области
intronic Вариант в интроне
upstream Вариант на расстоянии 1kb от старта транскриптиции(в сторону 5' конца)
downstream Вариант на расстоянии 1kb от конца транскриптиции(в сторону 3' конца)
intergenic Вариант в межгенной области

Число наших SNP в найденных категориях(файл variant_function):

Категория Число
UTR3 8
exonic 15
intronic 78
downstream 2
intergenic 3

Также refGene дает информацию о (не)синонимичности SNP(файл exonic_variant_function), правда из 15 экзонных мутаций были данные только по трем:

SNP Комментарий
chr9 5081780 5081780 G A hom 221.999 50 synonymous SNV JAK2:NM_004972:exon19:c.G2490A:p.L830L
chr9 5126443 5126443 T A het 207.009 38 nonsynonymous SNV JAK2:NM_004972:exon24:c.T3288A:p.D1096E
chr9 6253571 6253571 C T het 225.009 54 synonymous SNV IL33:NM_033439:exon6:c.C489T:p.Y163Y,IL33:NM_001199641:exon3:c.C111T:p.Y37Y,IL33:NM_001199640:exon5:c.C363T:p.Y121Y*

*Для разных транскриптов возможны разные координаты.

SNP принадлежат пяти генам: ABO, GLIS3, IL33, JAK2, SLC1A1.

96 из 106 имеют rs(перечислены в выводе при аннотации dbSNP).

Из аннотации 1000 Genomes можно получить данные по частотам SNP. Cредняя частота составила 0.41. Причем есть один очень странный SNP с частотой 1:

1	chr9	6253186	6253186	C	G	hom	145.033	8

3 аннотированы в ClinVar. Но больше ничего про них не указано в выводе Annovar. Зато в GWAS есть информация о клинической картине.

Предрасположенность/фенотипический признакSNP
Crohn's disease chr9 4985879 4985879 A G het 225.009 30
Endometriosis chr9 6253571 6253571 C T het 225.009 54
Tumor biomarkers,Coagulation factor levels chr9 136131188 136131188 C T het 13.2188 10
mean corpuscular hemoglobin concentration chr9 136131322 136131322 G T het 180.009 24
End-stage coagulation chr9 136131415 136131415 C T het 134.008 21
Malaria chr9 136132754 136132754 C A het 123.008 33
Activated partial thromboplastin time,Venous thromboembolism,D-dimer levels chr9 136137065 136137065 A G hom 42.7648 2
Coagulation factor levels chr9 136137106 136137106 G A hom 9.52546 1

Полную таблицу по всем SNP можно скачать по ссылке.

© Пушкарев Сергей, 2018