В предыдущем семестре был скачан протеом моей бактерии (Defluviicoccus vanus) и он всё это время оставался на кодомо. Но вот напоминание, какой командой этот протеом был скачан:
На странице протеома можно найти идентификатор протеома: UP000516369; и код доступа геномной сборки из GenBank: GCA_014672695.1. С помощью него можно произвести поиск в NCBI Datasets Genome. На странице NCBI Datasets Genome можно найи версию данной сборки в RefSeq, у моей бактерии это: GCF_014672695.1.
Для дальнейшей работы были скачаны геном и таблица локальных особенностей с помощью следующей команды:
Дальше я разархивировал полученные даные с помощью команды:
Для начало была получена информация о том, какой вариант генетического кода использует выбранный организм. ID таксона (111831) было получено со страницы UniProt. Это было сделанно с помощью команды:
На выход получили xml, где нас интересует блок <GeneticCode>, и в нём подблок <GCId>. У моей бактерии стоит число 11, что является наиболее распространённым для бактерий.
Затем были получены рамки между стоп-кодонами, не короче 50 аминокислотных остатков с помощбю команды:
Для проверки того, что все последовательности не меньше 50 а.к. была проведена проверка с помощью infoseq:
Потом по этому файлу с последовательностями была создана белковая база данных, для дальнейшего использования алгоритма blast. Это было сделано с помощью команды:
Для получения последовательностей гомологичных метилтрансфераз была написана команда:
Далее был применён алгоритм BLAST поиска сходства. Это было сделано с помощью команды:
Была получена таблица, в которой была выбрана лучшая находа NZ_CP053923.1_15182 с evalue 3,13 × 10-13. Оказалось, что нашёлся гомолог m4C метилтрансферазы.
Чтобы узнать координаты находки, была применена команда:
Координаты: 2674046 - 2675512.
Затем для нахождения в таблице локальных особенностей ближайших кодирующих последовательностей были написаны следующие команды:
Ссылка на файл с соседними CDS.
В последнем представленном файле наша находка пересекается с двумя соседями, одним выше и одним ниже, однако полного совпадения нет. Но можно заметить, что наша находка хорошо перекрывается с нижним соседом.
Для поиска по аннотациям мне понадобилась команда:
Однако число находок оказалось равным нулю. Это говорит о том, что я бы не смог найти CDS по аннотации кодирующих участков.
Также хочется отметть, что метилтрансфераза у моей бактерии всё таки есть. Нижний сосед моей находи является метилтрансферазой, но у него нет EC-кода. Его AC: WP_317628942. На сайте NCBI, в базе данных Protein указан только продукт (site-specific DNA-methyltransferase) и предсказанная молекулярная масса.