Для проверки недопредставленности сайтов рестрикции в геноме бактерии, был взят геном бактерии Streptococcus pneumoniae, штамм KK1157. Как видно, в геноме присутствуют следующие рестриктазы типа II с соответствующими сайтами рестрикции:
Таблица 1. Рестриктазы типа II и их сайты рестрикции | |
---|---|
Рестриктаза | Сайт рестрикции |
Spn1157ORF9500P | TCTAGA |
Spn1157ORF13670P | GATC |
Из предложенной в задании таблицы с рестриктазами типа II и их сайтами были отобраны сайты не предполагаемых ферментов и не длиннее 3-х нуклеотидов. Список таких сайтов. Информация об их представленности в геноме была получена командой:
cbcalc -s restriction_sites.txt -o cbcalc.tsv --burge Streptococcus_pneumoninae_KK1157.fasta
Выдача команды. Из этих сайтов я отобрал те, отношение O/E которых менее 0.8 (и O при этом больше 0) - это сайты GCGCGC, GATC, GGNCC, CCGG, GGCC и CCNGG. Из исходной таблицы были отобраны нуклеазы, узнающие эти сайты. Таких эндонуклеаз рестрикции - 62. Информация о них. Итого мы имеем 6 недопредставленных сайтов рестрикции, узнающихся 62 эндонуклеазами. Код в Jupyter Notebook, отбирающий эти эндонуклеазы и сайты рестрикции.
Для дальнейшей работы был выбран белок с AC P74518 - это фактор стимулирования гибернации рибосомы (Ribosome hibernation promotion factor), выделенный из бактерии рода Synechocystis - он, наряду с другими белками, связывает 70S рибосому и формирует трансляционно-неактивную 100S рибосому, тем самым ингибируя трансляцию.
Уже после первой итерации стало видно, что находок с E-value ниже порога не найдено, вторая итерация добавила еще 4 находки с e-value выше порога и, наконец, третья итерация PSI-BLAST не нашла новых находок с E-value выше порога (0.005). Таким образом, белки этого семейства довольно схожи между собой и мало схожи с белками из других семейств.
Таблица 2. PSI-BLAST | |||||
---|---|---|---|---|---|
№ итерации | Число находок выше порога E-value (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 24 | P33987 | 3e-05 | - | - |
2 | 28 | P9WMA8 | 3e-06 | - | - |
3 | 28 | P9WMA8 | 3e-06 | - | - |
3 | 28 | P9WMA8 | 3e-06 | - | - |