Сигналы и мотивы III
PSI-blast
Для работы был выбран белок с идентификатором C4Z088 - предполагаемый белок-локализатор перегородки MinC (probable septum site-determining protein MinC), принадлежащий Eubacterium eligens (strain ATCC 27750 / VPI C15-48). Это ингибитор клеточного деления, блокирующий образование полярных Z-колец, колеблясь между полюсами клетки и дестабилизируя формирующиеся филаменты FtsZ, прежде чем они сформируют Z-кольцо.
итерация | число находок выше порога (0.005) | идентификатор худшей находки выше порога | e-value этой находки | идентификатор лучшей находки ниже порога | e-value этой находки |
---|---|---|---|---|---|
1 | 162 | Q2P036.1 | 0.004 | Q5F5V4.1 | 0.005 |
2 | 188 | O25693.2 | 1e-9 | A7H8E6.1 | 0.049 |
3 | 188 | Q9ZM51.1 | 1e-11 | A7H8E6.1 | 0.011 |
4 | 188 | Q9ZM51.1 | 5e-13 | A7H8E6.1 | 0.015 |
Уже после второй итерации список находок стабилизировался, а разрыв e-value после порогового значения превысил 1e-7. В итоговом списке есть несколько подозрительных находок с покрытиями меньше 50% - и это при том, что процент identity у всех находок колеблется около 20. Так как делать пятничным вечером особо нечего, были скачаны и выравнены все последовательности.
В информации с NCBI невозможно найти ничего про участок белка, который противодействует образованию Z-кольца, связываясь (?) с белками FtsZ, но этот фрагмент подозрительно на него похож. Так что можно с уверенностью сказать, что семейство "хорошее".
Самое время прерваться на любование толстым енотом, который выглядит прямо как несчастная я на карантине:
![something went wrong](raccoon.jpg)
Эндонуклеазы рестрикции
Для получения списков сайтов рестрикции использовался пайплайн cut - f5 TypeII_REs.tsv | sort | uniq > sites.txt. Далее из полученного файла вручную были удалены последовательности, длина которых не превышала три нуклеотида (- и С), и заголовок таблицы. Программа CBcalc была запущена командой cbcalc - s sites.txt -o sites.tsv -K bacteria.fasta, и после этого командой sort -k5,5 -n -r sites.tsv - и смотрением на результаты выдачи - были отобраны три сайта, ratio которых меньше 0,8: CCTAGG, CTAG, GGATCC. Затем был написан и запущен скрипт на питоне, принимающий на вход два аргумента командной строки: имя файла с таблицей рестриктаз и имя файла с искомыми сайтами связывания (каждый в отдельной строке). А теперь давайте разберемся, что тут происходило.
Рестриктазы кушают ДНК - это для клетки в общем случае нехорошо, поэтому она не хочет, чтобы такие ферменты просто бегали вокруг и расщепляли все подряд. Самый простой механизм - метилировать сайты узнавания, но он тоже иногда ломается. Из-за этого против таких сайтов всегда ведется отрицательный отбор. Это позволяет предсказать специфичность эндонуклеаз в клетке, основываясь на отношении фактического числа сайтов связывания к их ожидаемому количеству. Чем меньше число, тем выше вероятность того, что это - сайт для реально работающей в клетке рестриктазы. Поэтому сначала был сделан файл со списком всех возможных сайтов, потом получены искомые отношения с помощью CBcalc и, наконец, определены возможные рестриктазы питоновским скриптом. Вот, кстати, и они:
- BamFI
- BamHI
- BfaIA
- BfaIB
- Bsp98I
- CchI
- DdsI
- MjaI
- MthZI