Отчёт по практикуму 8

PSI-BLAST

Первым заданием, для выполнения «в классе», было поработать с PSI-BLAST.

Я выбрал белок с идентификатором Q7VDL2. Для него я провёл 5 итераций PSI-BLAST и заполнил таблицу.

Мой белок приинадлежит бактерии Prochlorococcus marinus (strain SARG / CCMP1375 / SS120). Это ингибитор клеточного деления, нарушающий сборку колец белка FtsZ, предшествующую делению бактерии. По UniProt, он принадлежит к семейству minC. На второй и третьей итерациях выделилось именно это семейство, но на четвёртой и пятой добавился ещё один белок, не из этого семейства и имеющий только 11 % identity при покрытии 55 %. Его E-value минус десятого порядка, что всё ещё на 7 порядков выше ближайшего результата сверху.

Можно сказать, что вначале семейство выделилось хорошо, но затем всё же вкрался ложноположительный результат.

Эндонуклеазы рестрикции

Целью этого задания было предсказание специфичности эндонуклеаз рестрикции моей бактерии (Salinibacter ruber DSM 13855) на основе недопредставленности сайтов рестрикции в геноме.

Список потенциальных сайтов рестрикции получен из файла, скачанного с kodomo, составленного на основе данных, полученных из базы REBASE. Команды bash, позволившие вырезать список:

Из полученного файла sites.txt были в дальнейшем вырезаны три строки: строка с неизвестным сайтом, строка из одной буквы C (для одной буквы бессмысленно оценивать контраст по частотам букв), бывшая заголовочная строка. Затем была оценена представленность сайтов в геноме бактерии — вычислен контраст по Карлину (программа cbcalc на kodomo). Выполненные команды:

У полученного таким образом файла контрасты расположены по возрастанию. Были взяты первые 6 сайтов (ссылка), так как их O/E ratio сильно отличаются друг от друга и от последующих (разности между соседними величинами вплоть до перехода с шестой на седьмую позицию составляют от 0,048 до 0,396, а затем резко падают — максимум 0,025 достигается между 13 и 14 строками). В дальнейшем требовалось взять идентификаторы экспериментально подтверждённых белков, имеющих специфичность к выявленным сайтам. Вот какая команда была использована:

Из полученного файла-списка был сделан listfile при помощи Notepad++, последовательности белков получены командой seqret ещё из одного файла с kodomo с последовательностями, соответствующими эндонуклеазам из таблицы, откуда получен список сайтов. Доступна ссылка и на файл с последовательностями.

Был проведён поиск гомологов данных белков в геноме бактерии при помощи программы tblastn из пакета NCBI BLAST+ 2.10.0. Базы были собраны на основе последовательности геномной ДНК и плазмиды pSR35. Команды запуска BLAST (здесь salrd называется база данных на основе геномной ДНК):

Даже с таким нестрогим порогом на E-value находка была всего одна, в геномной ДНК. Фрагмент выдачи, соответствующий находке, представлен в таблице 1.

Таблица 1. Лучшая находка tBLASTn
AC находкиPaeR7I
% identity34,694
Alignment length49
Mismatches32
Gap opens0
Q. start17
Q. end65
S. start2281814
S. end2281960
E-value0,018
Bit score33,1

В REBASE в геноме и плазмиде аннотирована всего одна эндонуклеаза из системы типа II, и та с неизвестной специфичностью. Получается, что ни выдача BLAST, ни база REBASE не дают подтверждения нашему предположению о специфичности эндонуклеаз.

Таким образом, был получен список сайтов рестрикции, недопредставленных в геноме, и AC эндонуклеаз, специфичных к этим сайтам. К сожалению, при поиске генов гомологичных белков подтвердить гипотезу о представленности эндонуклеаз рестрикции у S. ruber не удалось.