Сигналы и мотивы – 3. Недопредставленность сайтов рестрикции и PSI-BLAST

1. Hедопредставленность сайтов рестрикции в геноме бактерии Acetobacterium woodii

Код на Python, использованный для выполнения задач в данном практикуме, представлен в Jupyter Notebook по ссылке

Для выполнения данного практикума была выбрана бактерия Acetobacterium woodii, являющаяся анаэробной ацетогенной бактерией, использующей путь Вуда — Льюнгдаля для фиксации CO2 и получения энергии.
У данной бактерии присутствуют системы рестрикции-модификации типа II с известными сайтами, список всех систем доступен по ссылке. Требовалось отобрать недопредставленные сайты рестрикции в геноме данной бактерии. Для этого сначала отберем из списка недопредставленных сайтов рестрикции типа II те, чья длина больше 2 (файл с недопредставленными сайтами рестрикции типа II). Получился следующий список.
Далее при помощи программы cbcalc и метода Карлина получили информацию о представленности данных сайтов в геноме бактерии (файл), после чего отобрали недопредставленные сайты с порогом на контраст 0,8 (т.е. O/E ratio находок меньше 0,8). файл с результатом. Программа cbcalc берет на вход геном бактерии в fasta формате и список искомых недопредставленных сайтов. Получилось 3 наиболее недопредставленных сайта (GGATCC, CTAG, CCTAGG), всего нашлось 207 различных сайтов.

Следующим этапом было получение списка эндонуклеаз рестрикции, специфичных к получившимся 3 недопредставленным сайтам из генома A. woodii. Были выбраны только экспериментально проверенные эндонуклеазы. Получилась таблица с 9 эндонуклеазами, узнающими нужные недопредставленные сайты рестрикции.

Полученные результаты говорят о том, что в геноме данной бактерии большая часть сайтов, которые должны были бы избегаться, наоборот, наблюдаются, о чем говорит большое количество сайтов с Observed/Excepted ratio больше 0.8.

2. Составление семейства гомологов белка при помощи PSI-BLAST

Для выполнения данного задания я выбрала белок Ribosome hibernation promotion factor с AC O05886 из бактерии Mycobacterium tuberculosis. Даный белок инициирует гиберацию (инактивацию) рибосомы, димеризуя 70S рибосомы в 100S. Проводился поиск PSI-BLAST по банку Swissprot с порогом E-value 0.005, результаты итераций представлены в таблице.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 20 P17161.1 0.003
2 27 P71346.3 1e-11
3 28 P06727.4 0.003
4 37 P02651.2 6e-05
5 43 P27007.1 0.005 - результат равен порогу
6 95 P0DKW7.1 0.005 - результат равен порогу
7 184 Q9U943.2 0.004

Хотя и число находок во 2 и 3 итерации сходно, нельзя говорить, что трех итераций было достаточно для стабилизации, поскольку если продолжать поиск далее,то с каждой новой итерацией количество находок увеличивалось. Это может говорить о том, что последовательности, сходные с белками из семейтсва, встречаются у многих других белков. Иными словами, семейство гомологов данного белка обладает низкой специфичностью. Интересно еще то, что поиск мне не показывал находки ниже порога в 0.005, то есть все новые находки были достаточно достоверными.