Сигналы и мотивы - 3

Представленность сайтов рестрикции

Для исследования систем рестрикции-модификации была выбрана Latilactobacillus curvatus strain:FBA2, молочнокислая бактерия семейства Lactobacillaceae. Для нее известна одна система рестрикции-модификации с двумя метилазами (M1.LcuFBA2ORF905P, M2.LcuFBA2ORF905P) и одной рестриктазой (LcuFBA2ORF905P), обладающей специфичностью к сайту GATC.

Чтобы оценить представленность этого сайта, была использован метод С. Карлина, доступный на веб-версии программы CBcalk . Геном, доступный по ссылке был использован в качестве входной последовательности. Оказалось, что это сайт недопредставлен и имеет O/E ratio (отношение наблюдаемого чила находок к ожидаемому) равное 0.912

Далее, чтобы оценить представленность известных сайтов рестрикции в геноме Latilactobacillus curvatus strain:FBA2, с помощью скрипта get_sites.py был погдотовлен текстовый файл sites.txt с сайтами рестрикции. Скрипт принимает на вход таблицу с информацией о рестриктазах, в том числе о их сайте рестрикции. После чего, была произведена оценка представленности сайтов рестрикции с помощью веб-версии программы CBcalk (метод С. Карлина). Были отобраны недопредставленные сайты (O/E ratio меньше 0.8) с помощью скрипта filter_sites.py, на выхоже была получена таблица result.tsv с этими сайтами и информацией об их представленности. Информация о экперементально проверенных рестриктазах, специфичных к отобранным сайтам рестрикции, была собрана в таблицу restrictases_filtered.tsv c помощью скрипта get_restrictases.py

PSI-BLAST

Для составления семейства гомологов был выбран белок с идентификатором Q67XL4 - Uncharacterized CRM domain-containing protein At3g25440, chloroplastic, rabidopsis thaliana. Функция этого белка неизвестна, однако понятно, что он содержит РНК-связывающий CRM домен.

Табл. 1. Описание работы PSI-BLAST
Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога Е-value этой находки Идентификатор лучшей находки ниже порога Е-value этой находки
1 18 Q9FFU1.1 0.004 Q9SL79.2 0.012
2 23 P54454.1 2.00E-04 - -
3 25 Q58068.1 2.00E-06 Q5ZK40.1 0.05
4 25 Q58068.1 7.00E-17 Q898C7.1 0.007

Выдача PSI-BLAST стабилизировалась на 4 итерации, что говорит о высоком сходстве белков выбранного семейства. Все белки из выдачи являются РНК-связывающими, что говорит о высокой консервативности этого свойства внутри семейства.