Ресеквенирование. Поиск полиморфизмов у человека.

Большая таблица с командами

Команда	Что делает
fastqc chr21.fastq	Выдает отчет о качестве чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr21.fastq trim_chr21.fastq TRAILING:20	Удаляет нуклеотиды с качеством меньше 20 с конца каждого чтения.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim_chr21.fastq trim2_chr21.fastq MINLEN:50	Выбирает только чтения длиной более 50 нуклеотидов.
fastqc trim2_chr21.fastq	Аналогично первой, проводит контроль качества чтений(в данном случае, уже обработанных)
bwa index chr21.fasta	Индексирует референсную последовательность
bwa mem chr21.fasta trim2_chr21.fastq > bwa_chr21.sam	Строит выравнивание прочтений и референса
samtools view -b bwa_chr21.sam -o sam_outf.bam	Переводит файл в .sam формате в формат .bam
samtools sort -o sam_sort1.bam -T out.prefix sam_outf.bam	Сортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sam_sort1.bam	Индексирует отсортированный файл
samtools idxstats sam_sort1.bam	Выдает, сколько чтений картировалось на геном
samtools mpileup -uf chr21.fasta sam_sort1.bam -o chr21snp.vcf	Из референсного файла с хромосомой и файла с выравниванием чтений(отсортированным и проиндексированным) получила файл с полиморфизмами
bcftools call -cv chr21snp.bcf -o chr21snp.vcf	Получила из файла с полиморфизмами в формате .bsf получила файл в формате .vsf
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr21snp.vcf -outfile chr21snp.avinput	Переводит файл в формате .vcf в читаемый программой annovar
perl /nfs/srv/databases/annovar/annotate_variation.pl -geneanno -dbtype refGene -buildver hg19 chr21snp.avinput -outfile chr21snp_refgene /nfs/srv/databases/annovar/humandb/	Аннотирует SNP по базе данных refgene(h19 - сборка генома человека)
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype snp138 -buildver hg19 chr21snp.avinput -outfile chr21snp_snp138 /nfs/srv/databases/annovar/humandb/	Аннотирует SNP по dbsnp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 chr21snp.avinput -outfile chr21snp_1000g2014oct /nfs/srv/databases/annovar/humandb/	Аннотирует SNP по базе данных 1000 genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -buildver hg19 chr21snp.avinput -outfile chr21snp_gwas /nfs/srv/databases/annovar/humandb/	Аннотирует SNP по базе данных GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 chr21snp.avinput -outfile chr21snp_clinvar /nfs/srv/databases/annovar/humandb/	Аннотирует SNP по базе данных Clinvar

Часть 1. Подготовка чтений.
Задачей данного практикума является поиск и описание полиморфизмов у человека. Для начала необходимо подготовить полученные с секвенатора чтения для дальнейшей обработки - анализировать их качество и удалить "плохие" участки. С этой целью использовались программы FastQC(анализ качества чтений) и Trimmomatic(очистка чтений). Я использовала команды
fastqc chr21.fastq - получила zip архив с отчетом о качестве чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr21.fastq trim_chr21.fastq TRAILING:20 - удалила нуклеотиды с качеством меньше 20 с конца каждого чтения.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim_chr21.fastq trim2_chr21.fastq MINLEN:50 - выбрала только чтения длиной более 50 нуклеотидов.
fastqc trim2_chr21.fastq - провела контроль качества обработанных чтений.
Ниже приведены картинки из выдачи программы FastQC, позволяющие сравнить качество чтений до и после обработки.

Рис.1 Иллюстрация качества чтений до обработки

Рис.2 Иллюстация качества чтений после обработки
До чистки файл содержал 8158 чтений, после чистки их стало 7858. Получается, что удалилось 300 чтений. В соответствии с примененными мною командами, все эти 300 чтений были длиной менее 50 нуклеотидов. Часть из них могла быть изначально короткой, часть стала короче после первой команды - удаления нуклеотидов с плохим качеством.

Часть 2. Картирование чтений.
После очистки чтений можно их картировать. Использовалась программа BWA:

bwa index chr21.fasta - референсная последовательность была проиндексирована
bwa mem chr21.fasta trim2_chr21.fastq > bwa_chr21.sam - построено выравнивание прочтений и референса

Полученное выравнивание я проанализировала программой samtools:

samtools view -b bwa_chr21.sam -o sam_outf.bam - перевела файл в .sam формате в формат .bam(необходимо для дальнейшей работы)
samtools sort -o sam_sort1.bam -T out.prefix sam_outf.bam - отсортировала выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sam_sort1.bam - проиндексировала отсортированный файл
samtools idxstats sam_sort1.bam - посмотрела, сколько чтений откартировалось на геном.

Выдача samtools idxstats показала, что все 7858 чтений картировались.

Часть 3. Анализ SNP.
С помощью samtools mpileup я получила файл с полиморфизмами в формате .vsf, далее с помощью команды bcftools call -cv chr21snp.bcf -o chr21snp.vcf перевела его в формат .vcf. Из полученного файла - chr21snp.vсf - я взяла полиморфизмы для описания.

Всего нашлось 82 полиморфизма и 6 инделей. Для более наглядного представления данных я перевела таблицу из текстового файла в excel - ссылка на html-вид таблицы. Голубым выделены описываемые полиморфизмы.
1) Замена С(в рефренсе) на Т(в чтениях) в 16334658 позиции. Качество чтений в данном месте - 166.009(хорошее), глубина покрытия данного места - 16(средняя).
2) Замена: в референсе был нуклеотид Т, в чтениях G. Позиция - 16334963. Качество чтений в данном месте - 225.009(очень хорошее). Глубина покрытия - 75(очень хорошая).
3) Опять замена нуклеотида С(в референсе) на Т(в чтениях). Позиция - 16335402. Качество чтений в данном месте - 16,1143(достаточно низкое). Глубина покрытия - 12(средняя).

Аннотация snp.Получив список snp, их можно аннотировать. Для этого я использовала программу annovar. Сначала было необходимо получить файл в формате, с которым умеет работать эта программа:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr21snp.vcf -outfile chr21snp.avinput
После этого я аннотировала имеющиеся у меня SNP c использованием 5 баз данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar(команды приведены в таблице 1).
Refgene
После использования команды было получено три файла. Один из них, с "форматом" .variant_function содержит информацию обо всех SNP, в нем они подразделяются на группы в зависимости от того, где произошла замена - в экзоне, интроне или 5' 3' некодирующих областях. Другой, с "форматом" .exonic_variant_function содержит информацию только о нуклеотидах, попавших в экзоны. У меня 4 SNP попали в экзоны, 69 в интроны и 9 в некодирующие концевые области.
О SNP, попавших в экзоны.Один из полиморфизмов оказался в гене белка, взаимодействующего с рецепторами ядра у человека(Homo sapiens nuclear receptor interacting protein 1). Три других попали в ген белка А, ассоциированного с убиквитином и содержащего SH3 домен(Homo sapiens ubiquitin associated and SH3 domain containing A (UBASH3A)). Из четырех полиморфизмов, попавших в экзоны, замену аминокислот вызвала только замена А на G в 43824106 позиции.
Замены, попавшие в индели и концевые некодирующие участки, отнесены к тем же генам и к гену белка ацетилтрансферазы(AGPAT3 1-acylglycerol-3-phosphate O-acyltransferase 3).
Интересно отметить, что в экзонах полиморфизмов значительно меньше, чем в некодирующих областях. Этому имеется понятное биологическое объяснение - ошибки в кодирующих последовательностях с большой вероятностью могут повлиять на жизнедеятельность организма, а ошибки в "молчащем" генетическом материале никак не отражаются на белках.

dbsnp
После команды по этой базе данных было опять получено три файла. В файле с форматом dropped содержатся snp, имеющие rs(идентификатор замены в dbsnp), в файле filtered - не имеющие. rs имеют 60 SNP, не имеют 22.

1000 genomes
В файле dropped были SNP, аннотированные в 1000 genomes, для них была указана частота встречаемости. Она находится в пределах от 0,01 до 0,8(для одного нуклеотида оказалась 1). Таких полиморфизмов оказалось 59. Не аннотированными в данной БД оказались 23.

Базы, предоставляющие клиническое описание SNP(GWAS, Clinvar)
В базе данных GWAS аннотировано 3 полиморфизма из моего списка. Один из них связан с когнитивными функциями(cognitive performance), другой с диабетом первого типа, третий с уровнем фосфолипидов в плазме крови. В базе данных Clinvar аннотированных полиморфизмов не нашлось.
Итог: Я сделала общую таблицу по snp с характеристиками, полученными из различных баз данных(Clinvar не представлена, так как в ней никаких snp из моих файлов не оказалось) - таблица.