Для описания я взял свой любимый бактериородопсин (BACR_HALSA, помню наизусть) и проверил его на доменную структуру. Он почти полностью состоит из домена Bac_rhodopsin.
Таблица 1. Информация из Pfam о домене | ||
---|---|---|
Позиция | Значение | |
Название | Bacteriorhodopsin-like protein | |
Pfam ID | Bac_rhodopsin | |
Pfam AC | PF01036 | |
Функция домена | Обеспечивает ионный транспорт, который зависит от освещённости, а также сенсорные функции для семейства галофильных бактерий | |
Число последовательностей | 1667 | |
Число последовательностей в выравнивании | 16 | |
Число доменных архитектур | 32 | |
"Приятели" этого домена | Bac_rhodopsin, Response_reg, HisKA | |
Число 3D структур доменов | 29 | |
Число белков с доменом по таксонам | Bacteria | 423 |
Archaea | 223 | |
Eukaryota | 1006 | |
HMM профиль | Дата последнего изменения | 4 августа 2018 |
Число позиций | 223 |
Для выполнения этого задания я скачал все последовательности в fasta-формате и выровнял их с помощью программы
Здесь будет ссылка на jvp-файл.
Редактируя выравнивание, я:
В итоге остаётся 8 последовательностей.
Исходное выравнивание и выравнивание, прошедшее ревизию, вы сможете найти в моём проекте JalView.
После ревизии в этом выравнивании я нашёл (см. проект JalView):
К сожалению, честно говоря, про ошибки в выравнивании я так и не понял. Не понял, как их правильно искать и исправлять. Настолько не понял, что даже не знаю, как по этому поводу правильно задать вопрос... Про ошибку в моём конкретном выравнивании я понял, нашёл её и исправил, а также немного лучше понял в целом про то, как искать ошибки в выравниваниях.
Тут будет ссылка на файл электронных таблиц Excel.
Выбрал я для поиска доменную архитектуру PF01036, PF00211.
Все расчёты количества проводились через функцию Excel
Таблица 2. Сравнение полученных данных из UniProt и Pfam | |||
---|---|---|---|
Позиция | UniProt | Pfam | |
Сколько всего белков нашлось | UniProtKB | TrEMBL | 1667 |
10929 | 48 | ||
Сколько белков нашлось при ограничении поиска по Pelagibacterales | 82 | 14 | |
Сколько белков нашлось при ограничении поиска по выбранной доменной архитектуре | 21 | 8 |
Судя по результатам поиска, можно смело сказать, что база данных Pfam на данный момент сильно меньше, чем UniProtKB, хоть и очень удобная, так как в ней реализовано хранилище именно ДОМЕНОВ белков, а не последовательностей белков.
Мною выбранному домену в базе PROSITE соответствуют, почему-то, 2 находки: BACTERIAL_OPSIN_1 и BACTERIAL_OPSIN_RET. Мне не совсем понятно, что из них на самом деле Bac_rhodopsin, но могу предположить, что это просто 2 разные его разновидности, мало чем отличающиеся (судя по названию, лигандами или связанными с ними механизмами работы белка).
Считается, что пространственная структура консервативнее первичной структуры белка. Это хороший вариант проверить множественное выравнивание белков!
Для этого я выбрал 3 белка с выбранным мною доменом Bac_rhodopsin, для которых ещё и известна пространственная структура. Ими оказались:
Таблица 3. Информация о необходимых в этом задании белках | ||||
---|---|---|---|---|
UniProt ID | а. о. UniProt | PDB ID | PDB ID цепи | а. о. PDB |
BACH_HALSA | 30 - 260 | 1E12 | A | 30 - 260 |
BACR1_HALC1 | 22 - 242 | 1UAZ | A | 16 - 236 |
BACR1_HALMA | 8 - 238 | 4PXK | A | 8 - 238 |
Теперь я посторю множественное выравнивание этих последовательностей с помощью
Ссылка на скрипт. Ссылка на jvp-файл.
Сравнивая "пространственное" выравнивание и множественное выравнивание
Во-первых, отличаются передние концы выравниваний: вместо непонятных структур с множеством инделей у
Во-вторых, отличаются задние концы выравниваний: Тут уже у PDBeFold наблюдается не совсем понятный паттерн с 5 инделями, в то время как
К остальной части выравниваний нареканий нет, всё сошлось практически идеально.
Как итог, можно сказать, что множественное выравнивание