Сигналы и мотивы – 3. Недопредставленность сайтов рестрикции и PSI-BLAST

1. Hедопредставленность сайтов рестрикции в геноме бактерии Acetobacterium woodii

Код на Python, использованный для выполнения задач в данном практикуме, представлен в Jupyter Notebook по ссылке

Для выполнения данного практикума была выбрана бактерия Acetobacterium woodii, являющаяся анаэробной ацетогенной бактерией, использующей путь Вуда — Льюнгдаля для фиксации CO₂ и получения энергии.
У данной бактерии присутствуют системы рестрикции-модификации типа II с известными сайтами, список всех систем доступен по ссылке. Требовалось отобрать недопредставленные сайты рестрикции в геноме данной бактерии. Для этого сначала отберем из списка недопредставленных сайтов рестрикции типа II те, чья длина больше 2 (файл с недопредставленными сайтами рестрикции типа II). Получился следующий список.
Далее при помощи программы cbcalc и метода Карлина получили информацию о представленности данных сайтов в геноме бактерии (файл), после чего отобрали недопредставленные сайты с порогом на контраст 0,8 (т.е. O/E ratio находок меньше 0,8). файл с результатом. Программа cbcalc берет на вход геном бактерии в fasta формате и список искомых недопредставленных сайтов. Получилось 3 наиболее недопредставленных сайта (GGATCC, CTAG, CCTAGG), всего нашлось 207 различных сайтов.

Следующим этапом было получение списка эндонуклеаз рестрикции, специфичных к получившимся 3 недопредставленным сайтам из генома A. woodii. Были выбраны только экспериментально проверенные эндонуклеазы. Получилась таблица с 9 эндонуклеазами, узнающими нужные недопредставленные сайты рестрикции.

Полученные результаты говорят о том, что в геноме данной бактерии большая часть сайтов, которые должны были бы избегаться, наоборот, наблюдаются, о чем говорит большое количество сайтов с Observed/Excepted ratio больше 0.8.

2. Составление семейства гомологов белка при помощи PSI-BLAST

Для выполнения данного задания я выбрала белок Ribosome hibernation promotion factor с AC O05886 из бактерии Mycobacterium tuberculosis. Даный белок инициирует гиберацию (инактивацию) рибосомы, димеризуя 70S рибосомы в 100S. Проводился поиск PSI-BLAST по банку Swissprot с порогом E-value 0.005, результаты итераций представлены в таблице.

Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	20	P17161.1	0.003	—	—
2	27	P71346.3	1e-11	—	—
3	28	P06727.4	0.003	—	—
4	37	P02651.2	6e-05	—	—
5	43	P27007.1	0.005 - результат равен порогу	—	—
6	95	P0DKW7.1	0.005 - результат равен порогу	—	—
7	184	Q9U943.2	0.004	—	—

Хотя и число находок во 2 и 3 итерации сходно, нельзя говорить, что трех итераций было достаточно для стабилизации, поскольку если продолжать поиск далее,то с каждой новой итерацией количество находок увеличивалось. Это может говорить о том, что последовательности, сходные с белками из семейтсва, встречаются у многих других белков. Иными словами, семейство гомологов данного белка обладает низкой специфичностью. Интересно еще то, что поиск мне не показывал находки ниже порога в 0.005, то есть все новые находки были достаточно достоверными.