Для начала необходимо получить TaxID организма, в моем случае это бактерия Corynebacterium diphtheriae , для этого была применена команда:
Выдача команды выдает только числовое значение - 257309 - которое и является искомым ID.
Дальше проводился поиск Assembly Accession выбранного организма, для этой задачи я составил конвеер:
В качестве результата команда выдает строку из файла, содержащую искомую информацию - "AssemblyAccession" : "GCF_000195815.1",
Полученный ранее АС позволяет скачать необходимые файлы, содержащие последовательность генома и таблицу локаных особенностей в формате gff3, для этой задачи использовалась команда:
В результате скачивается архив с необходимыми файлами - ncbi_dataset.zip, который разархивируется при помощи unzip.
Для начала рассмотрим, какую таблицу генетического кода использует мой организм, для этого воспользуемся конвеером:
Результаты выдачи представлены ниже:
Из них видно, что используется 11 таблица. Следующия этап - поиск открытых рамок считывания - для поиска которых использовался такой конвеер:
Поиск рамок проводился от стоп-кодона до стоп-кодона, минимальный размер -150 нуклеотидов (50 аминокислотных остатков), таким образом из рассмотрения удалены слишком короткие продукты. Все результаты сохранены в файл wind.fasta Однако чтобы в этом убедителься, был составлен конвеер для проверки результатов:
Из результатов работы этого конвеера выдается длина самой короткой последовательности, в моем случае это ровно 50 аминокислот. В заключение, по полученному файлу составлена локальная база данных при помощи:
Белки метилтрансфераз рассмотренные для поиска гомологов приведены ниже (Коды указаны по базе данных Swiss-Prot):
Чтобы извлечь последовательности сосьтавлен следующий конвеер:
При использовании локальной работы blast, за счет алгоритма blastp, получен файл, содержащий результаты выравниваний:
Из результатов работы алгоритма следует, что наибольшее сходство имеется при выравнивании с m4C от Bacillus amyloliquefaciens (Вес - 58.5). Находка имеет номер NC_002935.2_19172. Чтобы найти координаты находки и саму последовательность использовался конвеер:
Из этой выдачи мы находим координаты в геноме, а именно [783731-785920], так как цепь обратная. Далее был составлен файл CDS.tsv (из столбцов таблицы локальных особенностей) содержащий в себе координаты, цепь и коментарии:
В образовавшийся файл была добавлена строчка с находкой, файл отсортирован по координатам, после чего в файл neighbors.tsv была сохрана выдача конвеера, а и менно 3 соседних CDS. Исходя из выдачи, наш белок практически полностью перекрывает одну из находок [783728-785731].Из описания делаем заключение, что найденный белок - гомолог. Команда представлена ниже:
Последний этап - за счет поиска по аннотациям найти СDS, соответствующий находке. Для этой задачи был составлен следующий конвеер (EC Использовался той метилтрансферазы, с которой было наилучшее выравнивание, то есть m4C):
Однако в результате не было обнаружено ни одной находки.