Главная Семестры Обо мне

Сигналы и мотивы III

PSI-blast

Для работы был выбран белок с идентификатором C4Z088 - предполагаемый белок-локализатор перегородки MinC (probable septum site-determining protein MinC), принадлежащий Eubacterium eligens (strain ATCC 27750 / VPI C15-48). Это ингибитор клеточного деления, блокирующий образование полярных Z-колец, колеблясь между полюсами клетки и дестабилизируя формирующиеся филаменты FtsZ, прежде чем они сформируют Z-кольцо.

Результаты PSI-blast
итерация число находок выше порога (0.005) идентификатор худшей находки выше порога e-value этой находки идентификатор лучшей находки ниже порога e-value этой находки
1 162 Q2P036.1 0.004 Q5F5V4.1 0.005
2 188 O25693.2 1e-9 A7H8E6.1 0.049
3 188 Q9ZM51.1 1e-11 A7H8E6.1 0.011
4 188 Q9ZM51.1 5e-13 A7H8E6.1 0.015

Уже после второй итерации список находок стабилизировался, а разрыв e-value после порогового значения превысил 1e-7. В итоговом списке есть несколько подозрительных находок с покрытиями меньше 50% - и это при том, что процент identity у всех находок колеблется около 20. Так как делать пятничным вечером особо нечего, были скачаны и выравнены все последовательности.

something went wrong
Рисунок 1. Консервативный фрагмент С-концевого домена MinC

В информации с NCBI невозможно найти ничего про участок белка, который противодействует образованию Z-кольца, связываясь (?) с белками FtsZ, но этот фрагмент подозрительно на него похож. Так что можно с уверенностью сказать, что семейство "хорошее".

Самое время прерваться на любование толстым енотом, который выглядит прямо как несчастная я на карантине:

something went wrong
Рисунок 2. В меру упитанный енот

Эндонуклеазы рестрикции

Для получения списков сайтов рестрикции использовался пайплайн cut - f5 TypeII_REs.tsv | sort | uniq > sites.txt. Далее из полученного файла вручную были удалены последовательности, длина которых не превышала три нуклеотида (- и С), и заголовок таблицы. Программа CBcalc была запущена командой cbcalc - s sites.txt -o sites.tsv -K bacteria.fasta, и после этого командой sort -k5,5 -n -r sites.tsv - и смотрением на результаты выдачи - были отобраны три сайта, ratio которых меньше 0,8: CCTAGG, CTAG, GGATCC. Затем был написан и запущен скрипт на питоне, принимающий на вход два аргумента командной строки: имя файла с таблицей рестриктаз и имя файла с искомыми сайтами связывания (каждый в отдельной строке). А теперь давайте разберемся, что тут происходило.

Рестриктазы кушают ДНК - это для клетки в общем случае нехорошо, поэтому она не хочет, чтобы такие ферменты просто бегали вокруг и расщепляли все подряд. Самый простой механизм - метилировать сайты узнавания, но он тоже иногда ломается. Из-за этого против таких сайтов всегда ведется отрицательный отбор. Это позволяет предсказать специфичность эндонуклеаз в клетке, основываясь на отношении фактического числа сайтов связывания к их ожидаемому количеству. Чем меньше число, тем выше вероятность того, что это - сайт для реально работающей в клетке рестриктазы. Поэтому сначала был сделан файл со списком всех возможных сайтов, потом получены искомые отношения с помощью CBcalc и, наконец, определены возможные рестриктазы питоновским скриптом. Вот, кстати, и они:

P.S. Использованный геном - собственность Acetobacterium woodii DSM 1030