Я взял геном бактерии Escherichia coli O157:H7 с NCBI. Для всех слов длины 6 в данном геноме, не содержащих ambigious codes, я рассчитал их представленность как отношение реального количества к ожидаемому на основе длины последовательности и её GC-состава. Ambigious codes представлены в геноме в очень малых количествах, поэтому при расчсёте GC-состава я их проигнорировал.
Считая недопредставленными те сайты, которые встречаются в 10 и более раз реже, чем ожидаемые, я выделил их в отдельный список.
Затем я взял предоставленную нам таблицу с рестриктазами и их сайтами, и из неё получил сайты всех рестриктаз длины 6, не содержащие ambigious codes. Я рассматривал только сайты одинаковой длины для чистоты эксперимента (а сайты длины 6 - наиболее частые).
Для списка недопредставленных сайтов в геноме я получил список рестриктаз, которые эти сайты узнают.
Вышеперечисленные действия (кроме скачивания генома и таблицы рестритказ) я выполнил при помощи скрипта на Python (он содержит описания шагов в подсказках). Если вдруг у подсказок полетела кодировка (а такое может случиться, потому что текстовый редактор WinSCP и nano используют разную), есть скрипт с другой кодировкой
Подобный анализ сильно затрудняется тем, что часть рестриктаз узнают сайты, участвующие в других клеточных процессах, а потому по иным причинам недо- или перепредставленные. Как видно из списка, больше всего рестриктаз, чьи сайты недопредставлены в геноме Escherichia coli O157:H7, имеют мнемонику вида Spn; а именно у этих рестриктаз распространён сайт узнавания GATC, также узнаваемый DAM-метилазой.
Для поиска я выбрал запись с AC Q7VDL2. Это предполагаемый белок MinC, функция которого - определение положения септы (перегородки) при делении бактериальной клетки. Организм - Prochlorococcus marinus, очень маленькая цианобактерия, обитающая в олиготрофных условиях и производящая около 5% продуцируемого в морях кислорода (данные из Википедии)
У меня получилась следующая таблица итераций. Начиная со второй итерации, список находок выше порога стабилизировался. Все полученные в шестой итерации находки выше порога, кроме последней, представляют собой белки MinC, то есть того же семейства; последняя находка выше порога - белок Obg (регуляторный белок, связывающий гуанозиновые нуклеотиды), e-value которого отстоит от предыдущих на 6 порядков. Первая подпороговая находка - белок семейства SecA (трансмембранный переносчик белков). Из этого можно сделать вывод, что первые 188 из 189 надпороговых находок действительно составляют гомлогичное семейство белков