Практикум 9

Протеом бактерии

В практикуме номер 8 я рассматривал референсный протеом бактерии Acinetobacter baumannii с идентификатором UP000005740. Он содержит 10 аннотированных в swiss-prot белков и 3765 белков всего.

Получение AC геномной сборки

Чтобы найти геномную сборку для начала нужно найти Tax_id данного организма. "UP000005740.swiss.gz" - файл скопированный из "~/term2/pr8/". В данной команде мы рассматриваем строки начинающиеся на "OX".

В выдаче оказалось 3765 строк "TaxID=575584". Далее я вывел список всех геномных сборок этого организма в формате tsv, где столбцы разделены табуляциями.

По этому запросу нащлось 6 разлтчных сборок, 4 из них находятся в refseq, однако только сборка GCA_019331655.1 имеет уровень сборки complete genome, остальные имеют уровнеь сборки scaffold, далее будем рассматривать ее.

Скачивание последовательности генома и таблицы локальных особенностей

Для загрузки данной сборки с геномом и таблицей локальный особенностей была использована команда.

  Скачанный архив был разархивирован с помощью команды.

Поиск и трансляция открытых рамок считывания

Для поиска рамок считывания нужно сперва проверить какая таблица генетического кода соответсвует данному организму, для этого нужно рассмотрить запись из NCBI Taxonomy.

  В поле GCid было указано что данный организм использует стандартную 11ую таблицу. Для поиска рамок считывания была выполнена следущая программа.   Далее с помощью конвейера я проверил что среди транслированных белков нету тех, что короче 50 аминокислотных остатков.

  Таких не оказалось, минимальная длина-50 амк



Далее была создана база данных с помощью команды

Получение последовательностей гомологичных метилтрансфераз

Далее было предложено сравнить ДНК-метилтрансферазы в геноме с гомологичными последовательностями у Bacillus amyloliquefaciens и E. Coli. Так как не удалось заставить читать seqret из STDIN я сделал это задание в два этапа.

   и уже затем

Поиск по сходству последовательностей

Далее используя blastp, созданную ранее базу данных бласт и файл с гомологичными метилтрансферазами из прошлого пункта в качестве запроса мы получаем команду.

  Ссылка на текстовую выдачу. Наилучшей по весу оказалась находка NC_016603.1_7788, с помощью команды cat ./orfs.fasta | grep '^>NC_016603.1_7788' я нашел координаты находки [3367383 - 3368714]. Далее необходимо найти с какими кодирующими белки участками(CDS), пересекается эта находка, сперва нужно создать CDS файл содержащий кодирующие учатски той же нуклеотидной последовательности. Из файла локальныйх особенностей беруться соответсвующие строки с столбцами 4,5,7,9.   Далее ищем участки перекрывающиеся с находкой с помощью команды.   Ссылка на текстовую выдачу. В координатах 3367425 3368717 моя находка перекрывается с геном DNA modification methylase, что говорит о том что мы нашли гомолог m4C-МТазы.

Поиск по аннотациям кодирующих участков

Напоследок был осуществлен поиск нужных CDS по аннтоции с помощью конвейера и с EC соответствующих ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Однако ничего найдено не было.