Для исследования систем рестрикции-модификации была выбрана Latilactobacillus curvatus strain:FBA2, молочнокислая бактерия семейства Lactobacillaceae. Для нее известна одна система рестрикции-модификации с двумя метилазами (M1.LcuFBA2ORF905P, M2.LcuFBA2ORF905P) и одной рестриктазой (LcuFBA2ORF905P), обладающей специфичностью к сайту GATC.
Чтобы оценить представленность этого сайта, была использован метод С. Карлина, доступный на веб-версии программы CBcalk . Геном, доступный по ссылке был использован в качестве входной последовательности. Оказалось, что это сайт недопредставлен и имеет O/E ratio (отношение наблюдаемого чила находок к ожидаемому) равное 0.912
Далее, чтобы оценить представленность известных сайтов рестрикции в геноме Latilactobacillus curvatus strain:FBA2, с помощью скрипта get_sites.py был погдотовлен текстовый файл sites.txt с сайтами рестрикции. Скрипт принимает на вход таблицу с информацией о рестриктазах, в том числе о их сайте рестрикции. После чего, была произведена оценка представленности сайтов рестрикции с помощью веб-версии программы CBcalk (метод С. Карлина). Были отобраны недопредставленные сайты (O/E ratio меньше 0.8) с помощью скрипта filter_sites.py, на выхоже была получена таблица result.tsv с этими сайтами и информацией об их представленности. Информация о экперементально проверенных рестриктазах, специфичных к отобранным сайтам рестрикции, была собрана в таблицу restrictases_filtered.tsv c помощью скрипта get_restrictases.py
Для составления семейства гомологов был выбран белок с идентификатором Q67XL4 - Uncharacterized CRM domain-containing protein At3g25440, chloroplastic, rabidopsis thaliana. Функция этого белка неизвестна, однако понятно, что он содержит РНК-связывающий CRM домен.
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | Е-value этой находки | Идентификатор лучшей находки ниже порога | Е-value этой находки |
---|---|---|---|---|---|
1 | 18 | Q9FFU1.1 | 0.004 | Q9SL79.2 | 0.012 |
2 | 23 | P54454.1 | 2.00E-04 | - | - |
3 | 25 | Q58068.1 | 2.00E-06 | Q5ZK40.1 | 0.05 |
4 | 25 | Q58068.1 | 7.00E-17 | Q898C7.1 | 0.007 |
Выдача PSI-BLAST стабилизировалась на 4 итерации, что говорит о высоком сходстве белков выбранного семейства. Все белки из выдачи являются РНК-связывающими, что говорит о высокой консервативности этого свойства внутри семейства.