Левин И., 2-й семестр, практикум 13

Практикум по Pfam

1. Информация, доступная в Pfam по одному домену

Для описания я взял свой любимый бактериородопсин (BACR_HALSA, помню наизусть) и проверил его на доменную структуру. Он почти полностью состоит из домена Bac_rhodopsin.

Таблица 1. Информация из Pfam о домене
Позиция Значение
Название Bacteriorhodopsin-like protein
Pfam ID Bac_rhodopsin
Pfam AC PF01036
Функция домена Обеспечивает ионный транспорт, который зависит от освещённости, а также сенсорные функции для семейства галофильных бактерий
Число последовательностей 1667
Число последовательностей в выравнивании 16
Число доменных архитектур 32
"Приятели" этого домена Bac_rhodopsin, Response_reg, HisKA
Число 3D структур доменов 29
Число белков с доменом по таксонам Bacteria 423
Archaea 223
Eukaryota 1006
HMM профиль Дата последнего изменения 4 августа 2018
Число позиций 223

2. Анализ выравнивания из Pfam

Для выполнения этого задания я скачал все последовательности в fasta-формате и выровнял их с помощью программы muscle.

Здесь будет ссылка на jvp-файл.

Редактируя выравнивание, я:

  1. Удалил из него DORNG4.1 за то, что он единственный разительно отличающийся от других по длине белок;
  2. Удалил 2 последовательности (A0A1Z8L9M2.1, A0A1Z8LCY2.1) за то, что у них обнаружено большое количество букв "Х", что говорит об их плохом секвенировании;
  3. Исправил ошибку: в последовательностях F2I0T3.1 и M3U864.1 я передвинул по 2 "оторвавшихся" а. о. (Met и Lys) вправо, тем самым соединив их с остальными частями их последовательностей;
  4. Убрал из выравнивания пустые столбцы;
  5. Позже были убраны ещё три последовательности из четырёх (W9DY71.1, A0A1X7GL49.1, J9YVF5.1), схожие друг с другом более чем на 95%.

В итоге остаётся 8 последовательностей.

Исходное выравнивание и выравнивание, прошедшее ревизию, вы сможете найти в моём проекте JalView.

После ревизии в этом выравнивании я нашёл (см. проект JalView):

К сожалению, честно говоря, про ошибки в выравнивании я так и не понял. Не понял, как их правильно искать и исправлять. Настолько не понял, что даже не знаю, как по этому поводу правильно задать вопрос... Про ошибку в моём конкретном выравнивании я понял, нашёл её и исправил, а также немного лучше понял в целом про то, как искать ошибки в выравниваниях.

3. Ищем все белки с данным доменом Pfam в UniProt

Тут будет ссылка на файл электронных таблиц Excel.

Выбрал я для поиска доменную архитектуру PF01036, PF00211.

Все расчёты количества проводились через функцию Excel СЧЁТЕСЛИ, которая подсчитывает количество ячеек, удовлетворяющих условию, которое я этой функции сообщаю.

Таблица 2. Сравнение полученных данных из UniProt и Pfam
Позиция UniProt Pfam
Сколько всего белков нашлось UniProtKB TrEMBL 1667
10929 48
Сколько белков нашлось при ограничении поиска по Pelagibacterales 82 14
Сколько белков нашлось при ограничении поиска по выбранной доменной архитектуре 21 8

Судя по результатам поиска, можно смело сказать, что база данных Pfam на данный момент сильно меньше, чем UniProtKB, хоть и очень удобная, так как в ней реализовано хранилище именно ДОМЕНОВ белков, а не последовательностей белков.

Мною выбранному домену в базе PROSITE соответствуют, почему-то, 2 находки: BACTERIAL_OPSIN_1 и BACTERIAL_OPSIN_RET. Мне не совсем понятно, что из них на самом деле Bac_rhodopsin, но могу предположить, что это просто 2 разные его разновидности, мало чем отличающиеся (судя по названию, лигандами или связанными с ними механизмами работы белка).

4. Проверка выравнивания по совмещению структур

Считается, что пространственная структура консервативнее первичной структуры белка. Это хороший вариант проверить множественное выравнивание белков!

Для этого я выбрал 3 белка с выбранным мною доменом Bac_rhodopsin, для которых ещё и известна пространственная структура. Ими оказались:

Таблица 3. Информация о необходимых в этом задании белках
UniProt ID а. о. UniProt PDB ID PDB ID цепи а. о. PDB
BACH_HALSA 30 - 260 1E12 A 30 - 260
BACR1_HALC1 22 - 242 1UAZ A 16 - 236
BACR1_HALMA 8 - 238 4PXK A 8 - 238

Теперь я посторю множественное выравнивание этих последовательностей с помощью muscle и импортирую его в JalView для более удобного просмотра и анализа, а также построю ещё одно выравнивание по совмещению структур и само совмещение структур с помощью PDBeFold и импортирую это всё в JalView и JMol соответственно также для более удобного рассмотрения.

Ссылка на скрипт. Ссылка на jvp-файл.

Сравнивая "пространственное" выравнивание и множественное выравнивание muscle, я заметил, что они показывают примерно одно и тоже, но не без отличий.

Во-первых, отличаются передние концы выравниваний: вместо непонятных структур с множеством инделей у muscle, PDBeFold показывает вставку на 10 а. о. у BACR1_HALC1.

Во-вторых, отличаются задние концы выравниваний: Тут уже у PDBeFold наблюдается не совсем понятный паттерн с 5 инделями, в то время как muscle выровнял этот участок с таким же количеством инделей, но у 2-х из них была меньшая длина.

К остальной части выравниваний нареканий нет, всё сошлось практически идеально.

Как итог, можно сказать, что множественное выравнивание muscle проверку совмещением структур успешно прошло! Выравнивания отличались минимальным количеством моментов, да и те оказались незначительно важны.