Блок 2, практикум 8, сигналы и мотивы - 3.

1. Проверка недопредставленности сайтов рестрикции в геноме бактерии Streptococcus pneumoniae штамма KK1157.

Для проверки недопредставленности сайтов рестрикции в геноме бактерии, был взят геном бактерии Streptococcus pneumoniae, штамм KK1157. Как видно, в геноме присутствуют следующие рестриктазы типа II с соответствующими сайтами рестрикции:

Таблица 1. Рестриктазы типа II и их сайты рестрикции
РестриктазаСайт рестрикции
Spn1157ORF9500PTCTAGA
Spn1157ORF13670PGATC

Из предложенной в задании таблицы с рестриктазами типа II и их сайтами были отобраны сайты не предполагаемых ферментов и не длиннее 3-х нуклеотидов. Список таких сайтов. Информация об их представленности в геноме была получена командой:

cbcalc -s restriction_sites.txt -o cbcalc.tsv --burge Streptococcus_pneumoninae_KK1157.fasta

Выдача команды. Из этих сайтов я отобрал те, отношение O/E которых менее 0.8 (и O при этом больше 0) - это сайты GCGCGC, GATC, GGNCC, CCGG, GGCC и CCNGG. Из исходной таблицы были отобраны нуклеазы, узнающие эти сайты. Таких эндонуклеаз рестрикции - 62. Информация о них. Итого мы имеем 6 недопредставленных сайтов рестрикции, узнающихся 62 эндонуклеазами. Код в Jupyter Notebook, отбирающий эти эндонуклеазы и сайты рестрикции.

2. PSI-BLAST

Для дальнейшей работы был выбран белок с AC P74518 - это фактор стимулирования гибернации рибосомы (Ribosome hibernation promotion factor), выделенный из бактерии рода Synechocystis - он, наряду с другими белками, связывает 70S рибосому и формирует трансляционно-неактивную 100S рибосому, тем самым ингибируя трансляцию.

Уже после первой итерации стало видно, что находок с E-value ниже порога не найдено, вторая итерация добавила еще 4 находки с e-value выше порога и, наконец, третья итерация PSI-BLAST не нашла новых находок с E-value выше порога (0.005). Таким образом, белки этого семейства довольно схожи между собой и мало схожи с белками из других семейств.

Таблица 2. PSI-BLAST
№ итерацииЧисло находок выше порога E-value (0,005)Идентификатор худшей находки выше порогаE-value этой находкиИдентификатор лучшей находки ниже порогаE-value этой находки
124P339873e-05--
228P9WMA83e-06--
328P9WMA83e-06--
328P9WMA83e-06--