Код на Python, использованный для выполнения задач в данном практикуме, представлен в Jupyter Notebook по ссылке
Для выполнения данного практикума была выбрана бактерия Acetobacterium woodii, являющаяся анаэробной ацетогенной бактерией, использующей путь Вуда — Льюнгдаля для фиксации CO2 и получения энергии.
У данной бактерии присутствуют системы рестрикции-модификации типа II с известными сайтами, список всех систем доступен по ссылке. Требовалось отобрать недопредставленные сайты рестрикции в геноме данной бактерии. Для этого сначала отберем из списка недопредставленных сайтов рестрикции типа II те, чья длина больше 2 (файл с недопредставленными сайтами рестрикции типа II). Получился следующий список.
Далее при помощи программы cbcalc и метода Карлина получили информацию о представленности данных сайтов в геноме бактерии (файл), после чего отобрали недопредставленные сайты с порогом на контраст 0,8 (т.е. O/E ratio находок меньше 0,8). файл с результатом. Программа cbcalc берет на вход геном бактерии в fasta формате и список искомых недопредставленных сайтов. Получилось 3 наиболее недопредставленных сайта (GGATCC, CTAG, CCTAGG), всего нашлось 207 различных сайтов.
Следующим этапом было получение списка эндонуклеаз рестрикции, специфичных к получившимся 3 недопредставленным сайтам из генома A. woodii. Были выбраны только экспериментально проверенные эндонуклеазы. Получилась таблица с 9 эндонуклеазами, узнающими нужные недопредставленные сайты рестрикции.
Полученные результаты говорят о том, что в геноме данной бактерии большая часть сайтов, которые должны были бы избегаться, наоборот, наблюдаются, о чем говорит большое количество сайтов с Observed/Excepted ratio больше 0.8.
Для выполнения данного задания я выбрала белок Ribosome hibernation promotion factor с AC O05886 из бактерии Mycobacterium tuberculosis. Даный белок инициирует гиберацию (инактивацию) рибосомы, димеризуя 70S рибосомы в 100S. Проводился поиск PSI-BLAST по банку Swissprot с порогом E-value 0.005, результаты итераций представлены в таблице.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 20 | P17161.1 | 0.003 | — | — |
2 | 27 | P71346.3 | 1e-11 | — | — |
3 | 28 | P06727.4 | 0.003 | — | — |
4 | 37 | P02651.2 | 6e-05 | — | — |
5 | 43 | P27007.1 | 0.005 - результат равен порогу | — | — |
6 | 95 | P0DKW7.1 | 0.005 - результат равен порогу | — | — |
7 | 184 | Q9U943.2 | 0.004 | — | — |
Хотя и число находок во 2 и 3 итерации сходно, нельзя говорить, что трех итераций было достаточно для стабилизации, поскольку если продолжать поиск далее,то с каждой новой итерацией количество находок увеличивалось. Это может говорить о том, что последовательности, сходные с белками из семейтсва, встречаются у многих других белков. Иными словами, семейство гомологов данного белка обладает низкой специфичностью. Интересно еще то, что поиск мне не показывал находки ниже порога в 0.005, то есть все новые находки были достаточно достоверными.