Работа с биоинформатическими программами

Получение АС геномной сборки

Для начала необходимо получить TaxID организма, в моем случае это бактерия Corynebacterium diphtheriae , для этого была применена команда:

Выдача команды выдает только числовое значение - 257309 - которое и является искомым ID.

Дальше проводился поиск Assembly Accession выбранного организма, для этой задачи я составил конвеер:

В качестве результата команда выдает строку из файла, содержащую искомую информацию - "AssemblyAccession" : "GCF_000195815.1",

Скачивание генома и таблицы особенностей

Полученный ранее АС позволяет скачать необходимые файлы, содержащие последовательность генома и таблицу локаных особенностей в формате gff3, для этой задачи использовалась команда:

В результате скачивается архив с необходимыми файлами - ncbi_dataset.zip, который разархивируется при помощи unzip.

Поиск открытых рамок считывания

Для начала рассмотрим, какую таблицу генетического кода использует мой организм, для этого воспользуемся конвеером:

Результаты выдачи представлены ниже:

Из них видно, что используется 11 таблица. Следующия этап - поиск открытых рамок считывания - для поиска которых использовался такой конвеер:

Поиск рамок проводился от стоп-кодона до стоп-кодона, минимальный размер -150 нуклеотидов (50 аминокислотных остатков), таким образом из рассмотрения удалены слишком короткие продукты. Все результаты сохранены в файл wind.fasta Однако чтобы в этом убедителься, был составлен конвеер для проверки результатов:

Из результатов работы этого конвеера выдается длина самой короткой последовательности, в моем случае это ровно 50 аминокислот. В заключение, по полученному файлу составлена локальная база данных при помощи:

Поиск последовательностей гомологичных метилтрансфераз

Белки метилтрансфераз рассмотренные для поиска гомологов приведены ниже (Коды указаны по базе данных Swiss-Prot):

  1. P0AED9 (Dcm, m5C-МТаза, E.coli)
  2. P0AEE8 (Dam, m6A-МТаза, E.coli)
  3. P23941 (m4C-МТаза, Bacillus amyloliquefaciens)

Чтобы извлечь последовательности сосьтавлен следующий конвеер:

Поиск последовательностей по сходству

При использовании локальной работы blast, за счет алгоритма blastp, получен файл, содержащий результаты выравниваний:

Файл

Из результатов работы алгоритма следует, что наибольшее сходство имеется при выравнивании с m4C от Bacillus amyloliquefaciens (Вес - 58.5). Находка имеет номер NC_002935.2_19172. Чтобы найти координаты находки и саму последовательность использовался конвеер:

Из этой выдачи мы находим координаты в геноме, а именно [783731-785920], так как цепь обратная. Далее был составлен файл CDS.tsv (из столбцов таблицы локальных особенностей) содержащий в себе координаты, цепь и коментарии:

В образовавшийся файл была добавлена строчка с находкой, файл отсортирован по координатам, после чего в файл neighbors.tsv была сохрана выдача конвеера, а и менно 3 соседних CDS. Исходя из выдачи, наш белок практически полностью перекрывает одну из находок [783728-785731].Из описания делаем заключение, что найденный белок - гомолог. Команда представлена ниже:

Поиск по аннотациям кодирующих участков

Последний этап - за счет поиска по аннотациям найти СDS, соответствующий находке. Для этой задачи был составлен следующий конвеер (EC Использовался той метилтрансферазы, с которой было наилучшее выравнивание, то есть m4C):

Однако в результате не было обнаружено ни одной находки.