Для анализа был выбран геном бактерии Bacillus amyloliquefaciens isolate PP19. Он содержит ген рестриктазы BamPP19ORF3330P, узнающей сайт GACGAG. Последовательность хромосомы этой бактерии была скачена из базы данных NCBI Genome.
Из таблицы были отобраны сайты узнавания экспериментально проверенных эндонуклез длиной больше 2 нуклеотидов. Для них была оценена представленность с использованием программы CBcalc с опцией --burge. С результатом работы программы можно ознакомится в файле. Далее из них были отобраны сайты с уровнем "O/E" ниже 0.8, их оказалось 6: CTAG, TCTAGA, CCATGG, ACTAGT, GGATCC, CTCGAG. Далее из таблицы были отобраны экспериментально проверенные эндонуклеазы, узнающие эти сайты. Их оказалось 12. С их списком можно ознакомится в файле. Таким образом, геном бактерии Bacillus amyloliquefaciens isolate PP19 содержит 6 недопредставленных сайтов рестрикции, которые могут узнаваться 12 эксперементально проверенными эндонуклеазами.
Для анализа был выбран AC: Q67XL4. Это неохарактеризованный хлоропластный белок, содержащий CRM-домен. Выделен из Arabidopsis thaliana. Про его функцию известно, что она включает связывание РНК.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 18 | Q9FFU1.1 | 0.005 | Q9SL79.2 | 0.007 |
2 | 23 | 3e-04 | P71376.1 | - | - |
3 | 25 | Q58068.1 | 1e-08 | - | - |
4 | 25 | Q58068.1 | 6e-20 | - | - |
5 | 25 | Q58068.1 | 4e-20 | - | - |
С выдачей можно ознакомится по ссылке. Находки с e-value выше порога появлялись только на первой итерации. На третьей итерации алгоритм сошелся, выдача перестала менятся. Про полученные находки можно сказать, что они формируют достаточно разумное семейство белков. Среди них другие белки, содержащие CRM-домен, а также белки, участвующие в сплайсинге, что, вероятно, означает, что они тоже обладают способностью связывать РНК. Все они принадлежат растениям. Однако 5 наихудших находок сильно выбиваются по многим параметрам: у них значительно падает e-value, они принадлежат бактериям, их длина сильно меньше, но они также обладают функцией связывания РНК, вероятно, из-за этого они имеют похожие участки.