Недопредставленность сайтов рестриции

Из базы данных были выгружены полная последовательность генома бактерии Agrobacterium tumefaciens strain 15955. Далее вычислялась прдеставленность всех данных сайтов рестрикции с помощью команды cbcalc (см. ниже). Входной файл содержит сайты рестриции, записанных через пробел.

cbcalc sequence.fasta -s RM_sites.txt -o contrast_all.tcv

В результате была получена следующая таблица со значением контраста для каждого сайта. Далее сайты рестрикции отбирали по признаку "контраст < 0.8". Среди недопредставленных сайтов, прошедших порог, оказался GANTC, который относится к системе рестрикции-модификации самой A. tumefaciens. Для поиска гомологичных рестриктаз в геноме выбранной бактерии были получены сперва названия, а потом и соответствующие последовательности ферментов, чьи сайты оказались недопредставленными в геноме A. tumefaciens (файл с названиями и файл с последовательностями). При помощи BLAST+ на сервере kodomo и алгоритма tblastn осуществлялся поиск гомологов. Команда:

makeblastdb -in sequence.fasta -dbtype nucl

tblastn -query forBlast.fasta -db sequence.fasta -evalue 0.01 -out result.txt

Результат выравниваний можно скачать по ссылке. Выравнивание показало, что в геноме могут присутсвовать какие-то гомологичные последовательности, однако степень похожести у находок низкая. Данный файл оказался очень большим, поэтому очень затруднен "ручной" анализ. Для работы с ним был написан скрипт, который ищет AC рестриктаз-гомологов, для которых есть находки, и их E-value. В конце выходного файла есть полный список уникальных AC, которые присутствуют в успешных выравниваниях. Таких рестриктаз оказалось 71.

Все файлы для работы были сделаны благодаря скриптам, предоставленных Беляевым Геннадием, студентом ФББ 2 курса. Их можно найти на его странице этого практикума.

PSI-BLAST

Выбранный идентификатор – C4Z088 (MINC_LACE2). Это белок Probable septum site-determining protein MinC, который может ингибировать клеточное деление за счет остановки формирования полярных Z колец. Данный белок циркулирует в клетке и взаимодействует с FtsZ филаментами, нарушая их полимеризацию.

Для PSI-BLAST потребовалось 4 итерации, результат в файле. Стоит отметить, что во второй итерации к списку сравниваемых белков добавились новые последовательности, а находки, с E-value ниже порога в прошлой итерации, были удалены. Результат стабилизировался и наблюдается большая разница в несколько порядков между лучшей "неправильной" и худшей "правильной". По итогу, найденные белки имеют высокую степень гомологии и составляют обособленное семейство. Полученное семейство состоит из 188 белков.