Для поиска паттернов была выбрана микобактерия Mycoplasma bovis PG45, самый маленький клеточный организм из известных, по совместительноству являющийся возбудителем туберкулёза крупного рогатого скота. Полный геном в fasta формате был скачан с NCBI.
Со страницы бактерии в REBASE были отобраны и внесены в таблицу все рестриктазы второго типа и их сайты рестрикции. Их расположение в кольцевом геноме также представлено картинкой ниже.
M.Mbo45II Mbo45IIP |
CTAG |
M.Mbo45ORF467P Mbo45ORF467P |
GCNGC |
Mbo45IP M.Mbo45I |
GATC |
M.Mbo45ORF663P | RCATGY |
Mbo45IVP M1.Mbo45IV M2.Mbo45IV |
GCATC |
Mbo45IIIAP Mbo45IIIBP M.Mbo45III |
GANTC |
Полный геном бактерии был пропущен через веб-версию программы CBcalc. В результате был получен файл с O/E рейтингом для всех необходимых нам слов генома. Отбираем наиболее интересные находки - O/E рейтинг менее 0.65.
Теперь отбираем все подтвержденные рестриктазы второго типа, имеющие сродство с полученными сайтами и их последовательности и записываем в файл. В моем случае получилось более 400 последовательностей. Все необходимые операции с файлами были выполнены при помощи скрипта.
Для работы была случайным образом выбрана последовательность белка с идентификатором B2V8C0. Найденная в базе данных как предполагаемый белок-маркер сайта образования клеточной стенки при делении, принадлежащий бактерии рода Sulfurihydrogenibium.
№ | Находок выше порога | Худшая находка выше порога | Её E-Value | Лучшая находка ниже порога | Её E-Value |
1 | 163 | Q88M41 | 0.004 | Q4USO7 | 0.006 |
2 | 188 | Q9ZM51 | 6e-10 | A7H8E6 | 0.037 |
3 | 188 | Q9ZM51 | 2e-11 | A7H8E6 | 0.025 |
4 | 188 | Q9ZM51 | 1e-12 | A7H8E6 | 0.013 |
5 | 188 | Q9ZM51 | 3e-13 | B5FFP4 | 0.006 |
В результате уже на 3 итерацию набор последовательностей выше порога стабилизировался и оставался неизменным в дальнейшем. На 5 итерации сменилась лучшая находка ниже порога, однако это не имеет большого значения, так как A7H8E6 и B5FFP4 имеют сходные значения E-Value.
Работу алгоритма можно признать успешной, так как после 5 итераций выше порога оказались исключительно белки, имеющие сходные с исходным функции (определено по полному совпадению названий). На автоматически составленном дереве по находкам заметно выделение относительно крупных систематических групп, что сигнализирует о правильной филогенетической локализации белка.