Сигналы и мотивы - 3

Недопредставленность сайтов рестрикции

Для выполнения практикума была выбрана бактерия Neisseria meningitidis M0579. Она имеет 15 генов системы рестрикции-модификации II. Neisseria meningitidis представлена грамотрицательными аэробными диплококками. Патогенна, вызывает менингококковую инфекцию. Из файла TypeII_REs.tsv были взяты уникальные сайты рестрикции длиной больше 2. Затем с помощью консольной команды cbcalc с подачей на вход файла с геномом выбранной бактерии и файла с сайтами удалось получить на выходе файл с описанием представленности сайтов. Далее с помощью языка R и среды RStudio в качестве недопредставленных были выбраны сайты с O/E ratio меньше 0.8 (файл), а затем и экспериментально подтвержденные рестриктазы, распознающие данные сайты. В результате получился следующий файл со списком недопредставленных в геноме рестриктаз.

PSI-BLAST

Для выполнения задания был выбран белок с идентификатором P47908 - фактор, индуцирующий гибернацию рибосом. Результаты итераций представлены в таблице ниже:

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 24 P30334.1 0.004
2 28 P9WMA8.1 3,00E-06
3 28 P24694.1 4,00E-21
4 28 P24694.1 3,00E-21

Находки ниже порога не возникли ни на одной из итераций. Поэтому пришлось вручную менять E-value первой итерации. В результате возникла находка с e-value 0.27 (идентификатор P24694.1, также является худшей подходящей находкой на 3 итерации). Здесь можно обратить внимание на большой разрыв в значении e-value между худшей подходящей находкой и "новой" находкой. Нетрудно заметить, что результат стабилизируется уже к 4 итерации, что позволяет сделать вывод о похожести белков внутри семейства. Количество находок не меняется после 1 итерации.