Для выполнения практикума была выбрана бактерия Neisseria meningitidis M0579. Она имеет 15 генов системы рестрикции-модификации II. Neisseria meningitidis представлена грамотрицательными аэробными диплококками. Патогенна, вызывает менингококковую инфекцию. Из файла TypeII_REs.tsv были взяты уникальные сайты рестрикции длиной больше 2. Затем с помощью консольной команды cbcalc с подачей на вход файла с геномом выбранной бактерии и файла с сайтами удалось получить на выходе файл с описанием представленности сайтов. Далее с помощью языка R и среды RStudio в качестве недопредставленных были выбраны сайты с O/E ratio меньше 0.8 (файл), а затем и экспериментально подтвержденные рестриктазы, распознающие данные сайты. В результате получился следующий файл со списком недопредставленных в геноме рестриктаз.
Для выполнения задания был выбран белок с идентификатором P47908 - фактор, индуцирующий гибернацию рибосом. Результаты итераций представлены в таблице ниже:
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 24 | P30334.1 | 0.004 | ||
2 | 28 | P9WMA8.1 | 3,00E-06 | ||
3 | 28 | P24694.1 | 4,00E-21 | ||
4 | 28 | P24694.1 | 3,00E-21 |
Находки ниже порога не возникли ни на одной из итераций. Поэтому пришлось вручную менять E-value первой итерации. В результате возникла находка с e-value 0.27 (идентификатор P24694.1, также является худшей подходящей находкой на 3 итерации). Здесь можно обратить внимание на большой разрыв в значении e-value между худшей подходящей находкой и "новой" находкой. Нетрудно заметить, что результат стабилизируется уже к 4 итерации, что позволяет сделать вывод о похожести белков внутри семейства. Количество находок не меняется после 1 итерации.