Поиск и описание полиморфизмов у пациента


Часть 1. Подготовка чтений.


Для подготовки чтений были взяты файлы из заданной директории. Далее была
произведена оценка качества чтений, для чего была выполнена команда:
fastqc chr21.fastq

Очистка чтений производилась с помощью программы Trimmomatic. Она была запущена
с такими параметрами, чтобы были удалены чтения с длиной менее 50 нуклеотидов и
с концов каждого прочтения были удалены нуклеотиды с качеством ниже 20.
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.fastq chr21_trimm.fast TRAILING:20 MINLEN:50

Число чтений до и после чистки


Число чтений до чистки Число чтений после чистки
81587858

Картинки из FastQC "Per base quality"


До чистки


Graph

После чистки


Graph
Стоит отметить, что число чтений после чистки уменьшилось, посколько
были удалены прочтения с длиной меньше 50. Также можем увидеть, что
улучшилось качество чтений(в желтой и красной области качества почти
ничего не осталось) поскольку с концов чтений были удалены
нуклеотиды с качеством ниже 20.

Часть 2. Картирование чтений


Картирование чтений было произведено программой hisat2, экспортированной с помощью команды
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5

Таблица с командами и их описанием


Команды Описание
 hisat2-build chr21.fasta chr21_proc
Производит индексирование референсной последовательности
hisat2 -x chr21_proc -U chr21_trimm.fastq --no-spliced-alignment --no-softclip>chr21.sam
Выравнивание прочтений и референса
 hisat2 -x chr21_proc -q chr21_trimm.fastq -S chr21.sam --no-spliced-alignment --no-softclip --met-file hisat2.txt
Сохранение выдачи в отдельный файл
samtools view -b chr21.sam -o chr21.bam
Перевод в бинарный формат
 samtools sort chr21.bam chr21_sort
Сортировка выравниваний по координате в референсе начала чтения
samtools index chr21_sort.bam
Индексирование отсортированного выравнивания
 samtools idxstats chr21_sort.bam>reads.txt
Запись числа откартированных чтений
На геном откартировалось 7814 ридов, 46 ридов откартировано не было

Часть 3.1 Поиск SNP.


Создание файла с полиморфизмами в формате .bcf было выполнено с помощью команды:
 samtools mpileup -uf chr21.fasta chr21_sort.bam > snp.bcf

Файл с отличиями в формате .vcf был создан с помощью команды:
 bcftools call -cv snp.bcf -o snp.vcf

Было обнаружено 81 однонуклеотидный полиморфизм и 5 инделей.

Таблица с примерами полиморфизмов


КоординатаТипВ референсеВ прочтенииКачество прочтения на участкеГлубина покрытия на участке
16334658замена CT166.00916
16334963заменаTG225.00975
43824106заменаAG126.0088
В целом можно сказать, что покрытие приведеных полиморфизмов сильно различается по качеству

Часть 3.2 Анализ SNP.


Аннотация SNP производилась с помощью программы ANNOVAR.
Индели были удалены перед запуском скрипта.
Подготовка входного файла была произведена с помощью команды:
 perl /nfs/srv/databases/annovar/convert2annovar.pl.old - format vcf4 /nfs/srv/databases/ngs/simon_konnov/2/no_indel/snp.vcf > /nfs/srv/databases/ngs/simon_konnov/2/no_indel/snp.avinput

Refgene


Аннотация по генам была произведена с помощью команды:
 perl /nfs/srv/databases/annovar/annotate_variation.pl.old -out rs.refgene -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb.old/

В результате быле получены файлы с описанием всех полиморфизмов, описанием синонимичности и log-файл.
База данных Refseq делит snp по их локализации.
Количество snp: exonic - 4,intronic - 68, UTR3 - 9.
ГенЧисло SNP
NRIP115
UBASH3A25
AGPAT341
rs есть у 60 snp.

Dbsnp


Использовалась команда:
 perl /nfs/srv/databases/annovar/annotate_variation.pl.old -filter -out rs.snp -build hg19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb.old/

Аннотация показала, что 62 полиморфизма имеют rs, а 25 не имеют

1000 genomes


Использовалась команда:
 perl /nfs/srv/databases/annovar/annotate_variation.pl.old -filter -out rs.1000genomes -buildver hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb.old/

Было отобрано 58 полиморфизмов, а 29 попали в filtered

Gwas


Использовалась команда:
 perl /nfs/srv/databases/annovar/annotate_variation.pl.old -filter -out rs.gwas -build hg19 -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb.old/

Найденные snp не связаны с фенотипическими признаками

Clinvar


Использовалась команда:
 perl /nfs/srv/databases/annovar/annotate_variation.pl.old -filter -out rs.clinvar -dbtype clinvar_20150629 -buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb.old/

В выдаче не было ни одного snp, связанного со здоровьем человека.

Загрузить полную таблицу



© Simon Konnov 2017