Домены и профили

Список белков с выбранными доменами

Информация о выбранных мной доменах доступна в Таблице 1.
Стоит заметить, что про домен TetR_N достаточно мало известно.
В базе данных InterPro он описан как ДНК-связывающий домен со структурой спираль-поворот-спираль, который обнаруживается во многих регуляторах транскрипции бактерий и архей, таких как TetR, репрессор устойчивости к тетрациклину. Данный домен обнаруживается в подсемействе белков, включающем в себя регуляторы транскрипции TetR, TetC, AcrR, BetI, Bm3R1, EnvR, QacR, MtrR, TcmR, Ttk, YbiH, и YhgD. Многие из этих белков функционируют как репрессоры, контролирующие уровень чувствительности к гидрофобным антибиотикам и детергентам.
В базе данных Pfam название этого домена дано по названию семейства регуляторов TetR. Другой выбранный мной домен, TetR_C_37, представляет собой C-концевой домен некоторых белков семейства TetR, участвующий в димеризации.
Соответственно, выбранная доменная архитектура - это домен TetR_C_37, следующий за доменом TetR_N. По данным Pfam существует 83 последовательности с данной архитектурой.
Список белков.

Таблица 1. Выбранные домены Pfam.
ID TetR_N TetR_C_37
AC PF00440 PF18665
Название Bacterial regulatory proteins, tetR family (см. текст отчета) Tetracyclin repressor-like, C-terminal domain
Число последовательностей среди бактерий в Uniprot 636,643 275

HMM профиль белков с выбранной доменной архитектурой

На Рис. 1 изображено распределение длин белков с выбранной доменной архитектурой. Распределение бимодальное (кроме основного пика на 195-210 а.о., есть второй пик на 185-190 а.о.). Это, возможно, отражает наличие двух подгрупп среди данных белков.

Изображение не найдено. Вы можете сообщить об этом: daniil (dot) bobrovsky (at) fbb (dot) msu (dot) ru
Рис. 1. Распределение длин белков с выбранной доменной архитектурой.

Из данного 261 белка были отобраны 226 белков длиной от 185 до 210 а.о. Ниже приведены таксономические группы, белки бактерий из которых попали в отобранный список. Все выбранные белки обладают только двумя доменами Pfam (собственно, с интересующей нас доменной архитектурой).

Отделы:

Firmicutes
Bacteroidetes
Proteobacteria
Spirochaetes
Actinobacteria


Семейства:

Staphylococcaceae
Streptococcaceae
Chitinophagaceae
Cyclobacteriaceae
Clostridiaceae
Sphingobacteriaceae
Cytophagaceae
Flammeovirgaceae
Prolixibacteraceae
Spirochaetaceae
Flavobacteriaceae
Saprospiraceae
Desulfobacteraceae
Desulfobulbaceae
Rhodobacteraceae
Catalimonadaceae
				

Множественное выравнивание с помощью MUSCLE показало, что данные белки делятся на две группы по размеру (см. Рис. 2). Это следовало ожидать из гистограммы длин. Для дальнейшего анализа я решил оставить только более длинную группу, которая ниже на Рис. 2, так как таких белков сильно больше. Осталось 179 белков, для которых я заново построил выравнивание и выполнял дальнейшие действия.

Изображение не найдено. Вы можете сообщить об этом: daniil (dot) bobrovsky (at) fbb (dot) msu (dot) ru
Рис. 2. Множественное выравнивание выбранных белков: видно, что делятся на две группы по размеру.

Затем я убрал малоконсервативные участки с концов выравнивания и с помощью команд hmm2build и hmm2calibrate построил HMM профиль полученного выравнивания. Затем я скачал из Uniprot все последовательности, содержащие домен PF00440. К сожалению, таких последовательностей очень много, 636,6 тысяч. Однако второй домен из выбранной архитектуры - это один из вариантов C-концевого домена белков семейства TetR, для которых характерен первый домен. Иными словами, во всех белках, имеющих домен PF18665, обязательно имеется домен PF00440. Поэтому для проверки HMM профиля нельзя использовать белки с PF18665.
С помощь программы hmm2search с порогом на E-value 0.1 я провел поиск по всем белкам с доменом PF00440. После этого я вручную выбрал из полученного в результате работы hmm2search файла строки, содержащие информацию о Score и E-value последовательностей. После этого с помощью скрипта на питоне я распарсил полученный файл, а затем провел анализ.
Дальнейший анализ с комментариями можно посмотреть на html версии моего Jupyter-Notebook или же скачав оригинальный ноутбук.