Домены и профили
Список белков с выбранными доменами
Информация о выбранных мной доменах доступна в Таблице 1.
Стоит заметить, что про домен TetR_N достаточно мало известно.
В базе данных InterPro он описан как ДНК-связывающий домен со структурой спираль-поворот-спираль, который обнаруживается во
многих регуляторах транскрипции бактерий и архей, таких как TetR, репрессор устойчивости к тетрациклину. Данный домен
обнаруживается в подсемействе белков, включающем в себя регуляторы транскрипции TetR, TetC, AcrR, BetI, Bm3R1, EnvR, QacR,
MtrR, TcmR, Ttk, YbiH, и YhgD. Многие из этих белков функционируют как репрессоры, контролирующие уровень чувствительности
к гидрофобным антибиотикам и детергентам.
В базе данных Pfam название этого домена дано по названию семейства регуляторов TetR. Другой выбранный мной домен, TetR_C_37,
представляет собой C-концевой домен некоторых белков семейства TetR, участвующий в димеризации.
Соответственно, выбранная доменная архитектура - это домен TetR_C_37, следующий за доменом TetR_N. По данным Pfam существует
83 последовательности с данной архитектурой.
Список белков.
ID | TetR_N | TetR_C_37 |
---|---|---|
AC | PF00440 | PF18665 |
Название | Bacterial regulatory proteins, tetR family (см. текст отчета) | Tetracyclin repressor-like, C-terminal domain |
Число последовательностей среди бактерий в Uniprot | 636,643 | 275 |
HMM профиль белков с выбранной доменной архитектурой
На Рис. 1 изображено распределение длин белков с выбранной доменной архитектурой. Распределение бимодальное (кроме основного пика на 195-210 а.о., есть второй пик на 185-190 а.о.). Это, возможно, отражает наличие двух подгрупп среди данных белков.
![Изображение не найдено. Вы можете сообщить об этом: daniil (dot) bobrovsky (at) fbb (dot) msu (dot) ru](prot_len.png)
Из данного 261 белка были отобраны 226 белков длиной от 185 до 210 а.о. Ниже приведены таксономические группы, белки бактерий из которых попали в отобранный список. Все выбранные белки обладают только двумя доменами Pfam (собственно, с интересующей нас доменной архитектурой).
Отделы: Firmicutes Bacteroidetes Proteobacteria Spirochaetes Actinobacteria Семейства: Staphylococcaceae Streptococcaceae Chitinophagaceae Cyclobacteriaceae Clostridiaceae Sphingobacteriaceae Cytophagaceae Flammeovirgaceae Prolixibacteraceae Spirochaetaceae Flavobacteriaceae Saprospiraceae Desulfobacteraceae Desulfobulbaceae Rhodobacteraceae Catalimonadaceae
Множественное выравнивание с помощью MUSCLE показало, что данные белки делятся на две группы по размеру (см. Рис. 2). Это следовало ожидать из гистограммы длин. Для дальнейшего анализа я решил оставить только более длинную группу, которая ниже на Рис. 2, так как таких белков сильно больше. Осталось 179 белков, для которых я заново построил выравнивание и выполнял дальнейшие действия.
![Изображение не найдено. Вы можете сообщить об этом: daniil (dot) bobrovsky (at) fbb (dot) msu (dot) ru](mult_align.png)
Затем я убрал малоконсервативные участки с концов выравнивания и с помощью команд hmm2build и hmm2calibrate построил HMM профиль полученного выравнивания. Затем я скачал из Uniprot все последовательности, содержащие домен PF00440.
К сожалению, таких последовательностей очень много, 636,6 тысяч. Однако второй домен из выбранной архитектуры - это один из вариантов C-концевого домена белков семейства TetR, для которых характерен первый домен. Иными словами, во всех белках, имеющих домен PF18665, обязательно имеется домен PF00440. Поэтому для проверки HMM профиля нельзя использовать белки с PF18665.
С помощь программы hmm2search с порогом на E-value 0.1 я провел поиск по всем белкам с доменом PF00440.
После этого я вручную выбрал из полученного в результате работы hmm2search файла строки, содержащие информацию о Score и E-value последовательностей. После этого с помощью скрипта на питоне я распарсил полученный файл, а затем провел анализ.
Дальнейший анализ с комментариями можно посмотреть на html версии моего Jupyter-Notebook или же скачав оригинальный ноутбук.