Практикум 9

Поиск метилтрансфераз в геноме археи

Этап 1

Нам необходимо получить АС геномной сборки Methanocaldococcus jannaschii

Находим TaxID организма:

grep '^OX' UP000000805.swiss | cut -f4 -d ' '|sort|uniq -c|less 

Получаем:

1787 NCBI_TaxID=243232

Получаем все возможные геномные сборки организма:

datasets summary genome taxon 243232 --as-json-lines | dataformat tsv genome

Получаем множество результатов, выбираем референсную с аннотацией RefSeq - GCF_000091665.1

Этап 2

Скачиваем файлы:

datasets download genome accession GCF_000091665.1 --include genome,gff3

Этап 3

Нам нужно провести поиск и трансляцию открытых рамок считывания, для начала нам необходимо выяснить

какую таблицу генетического кода использует организм

efetch -db 'taxonomy' -id '243232' -format 'xml'

GeneticCode 11, Name: Bacterial, Archaeal and Plant Plastid(11 таблица генетического кода)

Ищем открытые рамки считывания:

getorf GCF_000091665.1_ASM9166v1_genomic.fna res.fasta -minsize 150 -table 11 -filter

Проведем проверку на наличие коротких трансляций(меньше 50 а.о.)

infoseq res.fasta -only -length | less

Коротких рамок считывания найдено не было

Теперь создаем белковую базу данных

makeblastdb -in res.fasta -dbtype 'prot'

Этап 4

Скачиваем последовательности гомологичных метилтрансфераз:

echo 'sw:P0AED9,sw:P0AEE8,sw:P23941' | tr ',' '\n'| seqret -filter -auto 'list:stdin' 'query_MTases.fasta'

Этап 5

Производим поиск гомологов метилтрансфераз в базе данных res.fasta при помощи blastp:

blastp -query query_MTases.fasta -db res.fasta -out MTases.out -outfmt 7

BLASTp-results

Смотрим результаты, лучшая находка имеет идентификатор NC_000909.1_1302, это сайт-специфичная ДНК-метилтрансфераза(аденин-специфичная), вот другие данные, которые мы получаем из результатов blastp:

DMA_ECOLI NC_000909.1_1302 35.563 284 162 8 5 267 17 300 1.81e-48 159

Выделим из файла локальных особенностей информацию о координатах и аннотацию всех CDS командой:

grep 'CDS' genomic.gff|cut -f4,5,7,9 > CDS.tsv 

Далее в таблице ищем нашу лучшую находку, и выделяем ее координаты: NC_000909.1_1302 529595 - 530500

Проводим поиск близких к ней по координатам находки, и выделяем результаты в новую таблицу:

echo -e '529595\t530500\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv

neighbours.tsvdownload

Этап 6

Ищем CDS с помощью поиска по аннотации кодирующих участков генома:

elink -id NC_000909.1 -target protein -db nuccore | efilter -query '2.1.1.37' | efetch -format fasta > ta.fasta

Был найден один результат для m5C-МТазы, что не соответствовало нашим ожиданиям.