В практикуме номер 8 я рассматривал референсный протеом бактерии Acinetobacter baumannii с идентификатором UP000005740. Он содержит 10 аннотированных в swiss-prot белков и 3765 белков всего.
Чтобы найти геномную сборку для начала нужно найти Tax_id данного организма. "UP000005740.swiss.gz" - файл скопированный из "~/term2/pr8/". В данной команде мы рассматриваем строки начинающиеся на "OX".
В выдаче оказалось 3765 строк "TaxID=575584". Далее я вывел список всех геномных сборок этого организма в формате tsv, где столбцы разделены табуляциями.
По этому запросу нащлось 6 разлтчных сборок, 4 из них находятся в refseq, однако только сборка GCA_019331655.1 имеет уровень сборки complete genome, остальные имеют уровнеь сборки scaffold, далее будем рассматривать ее.
Для загрузки данной сборки с геномом и таблицей локальный особенностей была использована команда.
  Скачанный архив был разархивирован с помощью команды.Для поиска рамок считывания нужно сперва проверить какая таблица генетического кода соответсвует данному организму, для этого нужно рассмотрить запись из NCBI Taxonomy.
  В поле GCid было указано что данный организм использует стандартную 11ую таблицу. Для поиска рамок считывания была выполнена следущая программа.   Далее с помощью конвейера я проверил что среди транслированных белков нету тех, что короче 50 аминокислотных остатков.  Таких не оказалось, минимальная длина-50 амк
Далее было предложено сравнить ДНК-метилтрансферазы в геноме с гомологичными последовательностями у Bacillus amyloliquefaciens и E. Coli. Так как не удалось заставить читать seqret из STDIN я сделал это задание в два этапа.
   и уже затемДалее используя blastp, созданную ранее базу данных бласт и файл с гомологичными метилтрансферазами из прошлого пункта в качестве запроса мы получаем команду.
  Ссылка на текстовую выдачу. Наилучшей по весу оказалась находка NC_016603.1_7788, с помощью команды cat ./orfs.fasta | grep '^>NC_016603.1_7788' я нашел координаты находки [3367383 - 3368714]. Далее необходимо найти с какими кодирующими белки участками(CDS), пересекается эта находка, сперва нужно создать CDS файл содержащий кодирующие учатски той же нуклеотидной последовательности. Из файла локальныйх особенностей беруться соответсвующие строки с столбцами 4,5,7,9.   Далее ищем участки перекрывающиеся с находкой с помощью команды.Напоследок был осуществлен поиск нужных CDS по аннтоции с помощью конвейера и с EC соответствующих ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Однако ничего найдено не было.