Сигналы и мотивы III



PSI-BLAST

P74518 - это идентификатор белка HPF (Ribosome hibernation promotion factor). Он отвечает за димеризацию активных 70S рибосом в 100S рибосомы в стационарной фазе. 100S рибосомы не активны трансляционно и иногда их число растет по экспоненте. Молекуларна функция белка - связываение с малой субъединицей рибосомы. Более подробную информацию можно посмотреть здесь.
Уже после третьей итерации число находок с E-value выше порога стабилизировалось (28 находок), а разница E-value "худшей из лучших" и "лучшей из худших" достигла 23-го порядка. Можно считать найденное семейство гомологов удачным. Ниже можно скачать таблицу с результатами итераций.


Эндонуклеазы рестрикции

Моей задачей было предсказать специфичность эндонуклеаз рестрикции археи Methanococcus maripaludis C6 (CP000745.1).

Этап 1. Получение списка сайтов

Скачала геном в fasta-формате с сайта NCBI.
Далее воспользовалась любезно предоставленным файлом с информацией о всех известных рестриктаз второго типа, загруженной с базы данных REBASE.
Командой cut -f 5 TypeII_REs.tsv | sort | uniq > sites.txt я создала текстовый файл с сайтами рестрикции. Далее пришлось глазами посмотреть на составленный список сайтов. Данный список пришлось еще вручную немного почистить, потому что меня смутили сайты рестрикции "-" и "С", их длины не соответствуют обычным сайтам рестрикции (от четырех нуклеотидов, в основном), также я убрала строчку "Recognition site". Вот итоговый список сайтов, который я получила.

Этап 2. Отбор недопредставленных сайтов

Для оценки представленности сайтов рестрикции испольховалась программа CBcalc.
Команда cbcalc -s sites.txt --burge -o calc.tsv Methanococcus_maripaludis_C6.fasta позволила вычислить отношение наблюдаемой частоты встречамости сайтов в геноме к ожидаемой.
Если отношение О/Е ratio довольно мало (меньше, скажем 0,8), то можно быть уверенным, что сайты с таким отношением наблюдаемой встречаемости в геноме к ожидаемой представлены в геноме именно как сайты рестрикции.
Отсортировала полученный список сайтов по столбцу E/O ratio и отобрала сайты со значением в данном столбце меньше порога (0,8) и больше нуля (то есть те, которые представлены в геноме) в программе Microsoft Excel.
Вот, какая таблица получилась(было отобрано 8 сайтов рестрикции).

Этап 3. отбор экспериментально проверенных эндонуклеаз

После этого, чтобы найти экспериментально подтвержденные сайты рестрикции, предсказанные на первых двух этапах, выделила из файла со списком эндонуклеаз только те, у которых присутствовало значение "no" в столбце "Putative".
При помощи того же Excel была отсортирована изначальная табличка с сайтами рестрикции по столбцу "Putative".
Далее находились с помощью Ctrl+F сайты рестрикции. Вот какие сайты рестрикции могут быть в моей архее:


up