Сигналы и мотивы III
- Что было сделано:
- было составлено семейство гомологов для последовательности белка с AC P74518 с помощью PSI-BLAST
- был получен список коротких последовательностей (сайтов), которые являются потенциальными сайтами рестрикции
- была проведена оценка представленности этих сайтов в геноме археи Methanococcus maripaludis C6
- был получен список экспериментально проверенных эндонуклеаз рестрикции, известная специфичность которых соответствует этим недопредставленным сайтам.
PSI-BLAST
P74518 - это идентификатор белка HPF (Ribosome hibernation promotion factor). Он отвечает за димеризацию активных
70S рибосом в 100S рибосомы в стационарной фазе. 100S рибосомы не активны трансляционно и иногда их число растет
по экспоненте. Молекуларна функция белка - связываение с малой субъединицей рибосомы. Более подробную информацию можно
посмотреть здесь.
Уже после третьей итерации число находок с E-value выше порога стабилизировалось (28 находок), а разница E-value "худшей из лучших"
и "лучшей из худших" достигла 23-го порядка. Можно считать найденное семейство гомологов удачным.
Ниже можно скачать
таблицу с результатами итераций.
Эндонуклеазы рестрикции
Моей задачей было предсказать специфичность эндонуклеаз рестрикции археи Methanococcus maripaludis C6 (CP000745.1).
Этап 1. Получение списка сайтов
Скачала геном в fasta-формате с сайта NCBI.
Далее воспользовалась любезно предоставленным файлом с информацией о всех известных рестриктаз второго типа, загруженной
с базы данных REBASE.
Командой cut -f 5 TypeII_REs.tsv | sort | uniq > sites.txt я создала текстовый файл с сайтами рестрикции.
Далее пришлось глазами посмотреть на составленный список сайтов. Данный список пришлось еще вручную немного почистить,
потому что меня смутили сайты рестрикции "-" и "С", их длины не соответствуют обычным сайтам рестрикции (от четырех
нуклеотидов, в основном), также я убрала строчку "Recognition site". Вот итоговый список сайтов,
который я получила.
Этап 2. Отбор недопредставленных сайтов
Для оценки представленности сайтов рестрикции испольховалась программа CBcalc.
Команда cbcalc -s sites.txt --burge -o calc.tsv Methanococcus_maripaludis_C6.fasta
позволила вычислить отношение наблюдаемой частоты встречамости сайтов в геноме к ожидаемой.
Если отношение О/Е ratio довольно мало (меньше, скажем 0,8), то можно быть уверенным, что сайты с таким отношением
наблюдаемой встречаемости в геноме к ожидаемой представлены в геноме именно как сайты рестрикции.
Отсортировала полученный список сайтов по столбцу E/O ratio и отобрала сайты со значением в данном столбце
меньше порога (0,8) и больше нуля (то есть те, которые представлены в геноме) в программе Microsoft Excel.
Вот, какая таблица получилась(было отобрано 8 сайтов рестрикции).
Этап 3. отбор экспериментально проверенных эндонуклеаз
После этого, чтобы найти экспериментально подтвержденные сайты рестрикции, предсказанные на первых двух этапах,
выделила из файла со списком эндонуклеаз только те, у которых присутствовало значение "no" в столбце
"Putative".
При помощи того же Excel была отсортирована изначальная табличка с сайтами рестрикции по столбцу "Putative".
Далее находились с помощью Ctrl+F сайты рестрикции. Вот какие сайты рестрикции могут быть в моей архее:
- CGCG:
- AccII
- CpaAI
- Csp68KVI
- ThaI
- TmaI
- TneDI
- CCCGGG:
- TspMI
- XcyI
- Cfr9I
- CphBI
- Pac25I
- SmaI
- GTAG:
- BfaIA
- BfaIB
- CchI
- MjaI
- MthZI
- GGCCNNNNNGGCC:
- SfiI
- CAGCTG:
- NsoJS138I
- SbaI
- GCCGGC:
- RrhJ1I
- SghWII
- FseI
- NaeI
- NgoAIV
- NgoMIV