Для выполнения практикума мне была предложена референсная последовательность 22-ой хромосомы человека.
Также были выданы чтения экзома, картирующиеся на участок 22-ой хромосомы человека. Одноконцевые чтения в формате fastq лежат в файле.
В ходе выполнения работы я использовала несколько команд, подробнее об их синтаксисе и выдаче в таблице:
Команда | Выдача |
hisat2-build chrX.fasta chrX | Выдача состоит из ряда файлов chrX.n.ht2 с проиндексированной референсной последовательностью |
fastqc infile.fastq | Команда производит контроль качества чтений, выдаёт отчёт в виде файла, формата .html |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 infile.fastq outfile.fastq TRAILING:20 MINLEN:50 | Таким образом я произвожу очистку чтений,
отрезая с конца каждого чтения нуклеотиды с качеством ниже 20, оставляя только чтения длиной не меньше 50 нуклеотидов.
Выдача команды - файл cleared_chr22.fastq В дальнейшем к триммированным чтениям я применяю команду fastqc для проверки их качества. |
hisat2 -x chrX -U cleared_chr22.fastq (файл с чтениями) -S outfile.sam --no-spliced-alignment --no-softclip | Производится картирование триммированных
чтений на проиндексированную последовательность.
Выдача команды - файл mapping.sam В связи с тем, что мы имеем дело с чтениями экзома, необходимо производить выравнивание по всему риду, более того в выравниваниях не должно быть инделей. |
samtools view -b infile.sam -o outfile.bam | Перевод выравнивания
чтений с референсом в бинарный формат .bam.
Выдача команды - файл mapping.bam параметр -b переводит формат .sam в .bam; параметр -o позволяет ввести название файла для выдачи |
samtools sort infile.bam soretd_outfile (формат аутфайла дописывать не надо, команда автоматически припишет .bam) | Сортировка выравнивания по
координате в референсе
Выдача команды - файл sorted_mapping.bam |
samtools index sorted_infile.bam (Название выводного файла вводить не следует, тк команда сама приписывает формат .bai к входному файлу) | Индексирование отсортированного файла
Выдача команды - файл sorted_mapping.bam.bai |
samtools mpileup -u -f chrX.fasta -g -o polymorph.bcf sorted_infile.bam | Создайте файл со
списком отличий(полиморфизмами) между референсом и чтениями в формате .bcf
Выдача команды - файл polymorph.bcf |
bcftools call -cv polymorph.bcf -o polymorph.vcf | Создание файла со
списком отличий между референсом и чтениями в формате .vcf, с которым можно работать глазками, вотличие от бинарного .bcf файла
Выдача команды - файл polymorph.vcf Далее я буду использовать данный файл для описания трёх полиморфизмов |
вручную удалила индели |
Файл - polymorph_without_indels.vcf |
convert2annovar.pl -format vcf4 polymorph_without_indels.vcf > polymorph.avinput | Команда получает файл из .vcf файла,
с которым умеет работать программа annovar.
Выдача команды - файл polymorph.avinput |
annotate_variation.pl -out refgene -build hg19 polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ | Aннотации файла с snp(polymorph.avinput) по базе данных refgene |
annotate_variation.pl -filter -out dbsnp -build hg19 -dbtype snp138 polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ | Aннотации файла с snp(polymorph.avinput) по базе данных dbsnp |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000_genomes polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ | Aннотации файла с snp(polymorph.avinput) по базе данных 1000 genomes |
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ | Aннотации файла с snp(polymorph.avinput) по базе данных GWAS |
annotate_variation.pl polymorph.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20140211 -buildver hg19 -out clinvar | Aннотации файла с snp(polymorph.avinput) по базе данных Clinvar |
Исходно было получено 11,427 чтений с длиной 30-100 пар оснований. После очистки чтений их осталось 11,091 с длиной от 50 до 100 нуклеотидов, как и требовалось. Сравнивая Рис.2 с Рис.1 можно чётко отследить улучшение качества чтений после триммирования. Эта процедура более чем оправдана, ведь в дальнейшем мы получим более точные данные.
Рис.1 Оценка качества чтений до триммированиия (чистки)
Рис.2 Оценка качества чтений после триммированиия
11091 reads; of these:
11091 (100.00%) were unpaired; of these:
53 (0.48%) aligned 0 times
11026 (99.41%) aligned exactly 1 time
12 (0.11%) aligned >1 times
99.52% overall alignment rate
Получается, 53 чтения не удалось сопоставить с участком 22-ой хромосомы человека, 11,026 были картированы один раз, 12 дважды. Таким образом, на геном было картировано 99,52% чтений. Данные свидетельствуют о высоком качестве картирования.
Всего было найдено 225 полиморфизмов, из которых 220 представляют из себя однонуклеотидную замену(snp), еще 5 - индели.
Среднее качетсво полиморфизмов: 67,26, медиана: 11,34. Я считаю, медиана даёт более точное представление о качестве полиморфизмов, среднее же "портится" немногочисленными высокими значениями.
Что касается покрытия, для него среднее значение: 25, медиана: 19. Вновь медиана лучше среднего характеризует покртыие. Покрытие, равное 19 можно считать хорошим.
Координата | Тип полиморфизма | Референс | Чтение | Глубина покрытия данного места | Качество чтения в данном месте |
26159289 | Замена | G | A | 19 | 221.999 |
26219723 | Вставка | CTTTTTT | CTTTTTTT | 6 | 21.6211 |
26286738 | Замена | T | A | 62 | 225.009 |
Чтобы провести анализ полиморфизмов, необходимо было проаннотировать файл по различным базам данных. Было получено множество файлов с описанием однонуклеотидных замен.
В частноси, база данных refseq в annovar делит snp на несколько категорий в зависимости от того, в каком участке происходит замена. Данная информация взята из файла refgene.variant_function:
Категория | Сколько snp попало в данную категорию |
exonic | 26 |
intronic | 186 |
ncRNA_exonic | 1 |
ncRNA_intronic | 6 |
Сложив все эти числа, получим общее количество snp - 219
Гены, в которые попали snp: TTC28, TTC28-AS1, APOL1, MYO18B
В файле с названием refgene.exonic_variant_function можно посмотреть, являются ли замены в экзонах (интроны не так интересны) значимыми. То есть там представлена информация о синонимичности и несинонимичности snp в экзонах. Итого: синонимичных замен 8, все остальные - несинонимичные.
В файле dbsnp.hg19_snp138_dropped лежат snp, у которых есть rs, всего их оказалось 177, оставшиеся 42 замены rs не имеют, следовательно в банке dbsnp они не описаны. Информацию о них можно найти в файле dbsnp.hg19_snp138_filtered
Можно сказать пару слов о частоте полученных замен, посмотрев в файл 1000_genomes.hg19_ALL.sites.2014_10_dropped. Cредняя частота состаляется 37%, но вновь среднее значение не так показательно, частота варьируется от 99% до 0,3%.
О клинической аннотации snp пишут в файле gwas.hg19_gwasCatalog, в базе данных clinvar ничего не получается найти.
Были найдены очень интерсные последствия однонуклеотидных замен:
gwasCatalog Name=Mathematical ability in children with dyslexia chr22 26159289 26159289 G A hom 221.999 19
gwasCatalog Name=Obesity chr22 28378472 28378472 A G hom 222.01 34
gwasCatalog Name=Glomerulosclerosis chr22 36661330 36661330 G A het 175.009 34
Я нашла эти замены по координатам в файле refgene.exonic_variant_function, чтобы посмотреть в каких генах происходит мутация. Попыталась понять, какая функция у этих генов, чтобы выстроить логическую цепочку между мутацией в конкретном гене и клиническими последствиями. Но, к сожалению, не смогла найти подробную информацию о функциях генов.