Нам необходимо получить АС геномной сборки Methanocaldococcus jannaschii
Находим TaxID организма:
grep '^OX' UP000000805.swiss | cut -f4 -d ' '|sort|uniq -c|less
Получаем:
1787 NCBI_TaxID=243232
Получаем все возможные геномные сборки организма:
datasets summary genome taxon 243232 --as-json-lines | dataformat tsv genome
Получаем множество результатов, выбираем референсную с аннотацией RefSeq - GCF_000091665.1
Скачиваем файлы:
datasets download genome accession GCF_000091665.1 --include genome,gff3
Нам нужно провести поиск и трансляцию открытых рамок считывания, для начала нам необходимо выяснить
какую таблицу генетического кода использует организм
efetch -db 'taxonomy' -id '243232' -format 'xml'
GeneticCode 11, Name: Bacterial, Archaeal and Plant Plastid(11 таблица генетического кода)
Ищем открытые рамки считывания:
getorf GCF_000091665.1_ASM9166v1_genomic.fna res.fasta -minsize 150 -table 11 -filter
Проведем проверку на наличие коротких трансляций(меньше 50 а.о.)
infoseq res.fasta -only -length | less
Коротких рамок считывания найдено не было
Теперь создаем белковую базу данных
makeblastdb -in res.fasta -dbtype 'prot'
Скачиваем последовательности гомологичных метилтрансфераз:
echo 'sw:P0AED9,sw:P0AEE8,sw:P23941' | tr ',' '\n'| seqret -filter -auto 'list:stdin' 'query_MTases.fasta'
Производим поиск гомологов метилтрансфераз в базе данных res.fasta при помощи blastp:
blastp -query query_MTases.fasta -db res.fasta -out MTases.out -outfmt 7
Смотрим результаты, лучшая находка имеет идентификатор NC_000909.1_1302, это сайт-специфичная ДНК-метилтрансфераза(аденин-специфичная), вот другие данные, которые мы получаем из результатов blastp:
DMA_ECOLI NC_000909.1_1302 35.563 284 162 8 5 267 17 300 1.81e-48 159
Выделим из файла локальных особенностей информацию о координатах и аннотацию всех CDS командой:
grep 'CDS' genomic.gff|cut -f4,5,7,9 > CDS.tsv
Далее в таблице ищем нашу лучшую находку, и выделяем ее координаты: NC_000909.1_1302 529595 - 530500
Проводим поиск близких к ней по координатам находки, и выделяем результаты в новую таблицу:
echo -e '529595\t530500\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv
Ищем CDS с помощью поиска по аннотации кодирующих участков генома:
elink -id NC_000909.1 -target protein -db nuccore | efilter -query '2.1.1.37' | efetch -format fasta > ta.fasta
Был найден один результат для m5C-МТазы, что не соответствовало нашим ожиданиям.