Работа с REBASE

Для поиска паттернов была выбрана микобактерия Mycoplasma bovis PG45, самый маленький клеточный организм из известных, по совместительноству являющийся возбудителем туберкулёза крупного рогатого скота. Полный геном в fasta формате был скачан с NCBI.

Со страницы бактерии в REBASE были отобраны и внесены в таблицу все рестриктазы второго типа и их сайты рестрикции. Их расположение в кольцевом геноме также представлено картинкой ниже.

Данные REBASE

M.Mbo45II

Mbo45IIP
CTAG

M.Mbo45ORF467P

Mbo45ORF467P
GCNGC

Mbo45IP

M.Mbo45I
GATC
M.Mbo45ORF663P RCATGY

Mbo45IVP

M1.Mbo45IV

M2.Mbo45IV
GCATC

Mbo45IIIAP

Mbo45IIIBP

M.Mbo45III
GANTC

Карта кольцевого генома из REBASE

Поиск недопредствленных сайтов и соответствующих им рестриктаз

Полный геном бактерии был пропущен через веб-версию программы CBcalc. В результате был получен файл с O/E рейтингом для всех необходимых нам слов генома. Отбираем наиболее интересные находки - O/E рейтинг менее 0.65.

Теперь отбираем все подтвержденные рестриктазы второго типа, имеющие сродство с полученными сайтами и их последовательности и записываем в файл. В моем случае получилось более 400 последовательностей. Все необходимые операции с файлами были выполнены при помощи скрипта.

PSI-BLAST

Для работы была случайным образом выбрана последовательность белка с идентификатором B2V8C0. Найденная в базе данных как предполагаемый белок-маркер сайта образования клеточной стенки при делении, принадлежащий бактерии рода Sulfurihydrogenibium.

Находок выше порога Худшая находка выше порога Её E-Value Лучшая находка ниже порога Её E-Value
1 163 Q88M41 0.004 Q4USO7 0.006
2 188 Q9ZM51 6e-10 A7H8E6 0.037
3 188 Q9ZM51 2e-11 A7H8E6 0.025
4 188 Q9ZM51 1e-12 A7H8E6 0.013
5 188 Q9ZM51 3e-13 B5FFP4 0.006

В результате уже на 3 итерацию набор последовательностей выше порога стабилизировался и оставался неизменным в дальнейшем. На 5 итерации сменилась лучшая находка ниже порога, однако это не имеет большого значения, так как A7H8E6 и B5FFP4 имеют сходные значения E-Value.

Работу алгоритма можно признать успешной, так как после 5 итераций выше порога оказались исключительно белки, имеющие сходные с исходным функции (определено по полному совпадению названий). На автоматически составленном дереве по находкам заметно выделение относительно крупных систематических групп, что сигнализирует о правильной филогенетической локализации белка.