Для описания я взял свой любимый бактериородопсин (BACR_HALSA, помню наизусть) и проверил его на доменную структуру. Он почти полностью состоит из домена Bac_rhodopsin.
| Таблица 1. Информация из Pfam о домене | ||
|---|---|---|
| Позиция | Значение | |
| Название | Bacteriorhodopsin-like protein | |
| Pfam ID | Bac_rhodopsin | |
| Pfam AC | PF01036 | |
| Функция домена | Обеспечивает ионный транспорт, который зависит от освещённости, а также сенсорные функции для семейства галофильных бактерий | |
| Число последовательностей | 1667 | |
| Число последовательностей в выравнивании | 16 | |
| Число доменных архитектур | 32 | |
| "Приятели" этого домена | Bac_rhodopsin, Response_reg, HisKA | |
| Число 3D структур доменов | 29 | |
| Число белков с доменом по таксонам | Bacteria | 423 |
| Archaea | 223 | |
| Eukaryota | 1006 | |
| HMM профиль | Дата последнего изменения | 4 августа 2018 |
| Число позиций | 223 | |
Для выполнения этого задания я скачал все последовательности в fasta-формате и выровнял их с помощью программы
Здесь будет ссылка на jvp-файл.
Редактируя выравнивание, я:
В итоге остаётся 8 последовательностей.
Исходное выравнивание и выравнивание, прошедшее ревизию, вы сможете найти в моём проекте JalView.
После ревизии в этом выравнивании я нашёл (см. проект JalView):
К сожалению, честно говоря, про ошибки в выравнивании я так и не понял. Не понял, как их правильно искать и исправлять. Настолько не понял, что даже не знаю, как по этому поводу правильно задать вопрос... Про ошибку в моём конкретном выравнивании я понял, нашёл её и исправил, а также немного лучше понял в целом про то, как искать ошибки в выравниваниях.
Тут будет ссылка на файл электронных таблиц Excel.
Выбрал я для поиска доменную архитектуру PF01036, PF00211.
Все расчёты количества проводились через функцию Excel
| Таблица 2. Сравнение полученных данных из UniProt и Pfam | |||
|---|---|---|---|
| Позиция | UniProt | Pfam | |
| Сколько всего белков нашлось | UniProtKB | TrEMBL | 1667 |
| 10929 | 48 | ||
| Сколько белков нашлось при ограничении поиска по Pelagibacterales | 82 | 14 | |
| Сколько белков нашлось при ограничении поиска по выбранной доменной архитектуре | 21 | 8 | |
Судя по результатам поиска, можно смело сказать, что база данных Pfam на данный момент сильно меньше, чем UniProtKB, хоть и очень удобная, так как в ней реализовано хранилище именно ДОМЕНОВ белков, а не последовательностей белков.
Мною выбранному домену в базе PROSITE соответствуют, почему-то, 2 находки: BACTERIAL_OPSIN_1 и BACTERIAL_OPSIN_RET. Мне не совсем понятно, что из них на самом деле Bac_rhodopsin, но могу предположить, что это просто 2 разные его разновидности, мало чем отличающиеся (судя по названию, лигандами или связанными с ними механизмами работы белка).
Считается, что пространственная структура консервативнее первичной структуры белка. Это хороший вариант проверить множественное выравнивание белков!
Для этого я выбрал 3 белка с выбранным мною доменом Bac_rhodopsin, для которых ещё и известна пространственная структура. Ими оказались:
| Таблица 3. Информация о необходимых в этом задании белках | ||||
|---|---|---|---|---|
| UniProt ID | а. о. UniProt | PDB ID | PDB ID цепи | а. о. PDB |
| BACH_HALSA | 30 - 260 | 1E12 | A | 30 - 260 |
| BACR1_HALC1 | 22 - 242 | 1UAZ | A | 16 - 236 |
| BACR1_HALMA | 8 - 238 | 4PXK | A | 8 - 238 |
Теперь я посторю множественное выравнивание этих последовательностей с помощью
Ссылка на скрипт. Ссылка на jvp-файл.
Сравнивая "пространственное" выравнивание и множественное выравнивание
Во-первых, отличаются передние концы выравниваний: вместо непонятных структур с множеством инделей у
Во-вторых, отличаются задние концы выравниваний: Тут уже у PDBeFold наблюдается не совсем понятный паттерн с 5 инделями, в то время как
К остальной части выравниваний нареканий нет, всё сошлось практически идеально.
Как итог, можно сказать, что множественное выравнивание