Левин И., 2-й семестр, практикум 13

Практикум по Pfam

1. Информация, доступная в Pfam по одному домену

Для описания я взял свой любимый бактериородопсин (BACR_HALSA, помню наизусть) и проверил его на доменную структуру. Он почти полностью состоит из домена Bac_rhodopsin.

Таблица 1. Информация из Pfam о домене
Позиция		Значение
Название		Bacteriorhodopsin-like protein
Pfam ID		Bac_rhodopsin
Pfam AC		PF01036
Функция домена		Обеспечивает ионный транспорт, который зависит от освещённости, а также сенсорные функции для семейства галофильных бактерий
Число последовательностей		1667
Число последовательностей в выравнивании		16
Число доменных архитектур		32
"Приятели" этого домена		Bac_rhodopsin, Response_reg, HisKA
Число 3D структур доменов		29
Число белков с доменом по таксонам	Bacteria	423
	Archaea	223
	Eukaryota	1006
HMM профиль	Дата последнего изменения	4 августа 2018
HMM профиль	Число позиций	223

2. Анализ выравнивания из Pfam

Таксон: Pelagibacterales;
Количество последовательностей: 14;
Количество видов: 11.

Для выполнения этого задания я скачал все последовательности в fasta-формате и выровнял их с помощью программы muscle.

Здесь будет ссылка на jvp-файл.

Редактируя выравнивание, я:

Удалил из него DORNG4.1 за то, что он единственный разительно отличающийся от других по длине белок;
Удалил 2 последовательности (A0A1Z8L9M2.1, A0A1Z8LCY2.1) за то, что у них обнаружено большое количество букв "Х", что говорит об их плохом секвенировании;
Исправил ошибку: в последовательностях F2I0T3.1 и M3U864.1 я передвинул по 2 "оторвавшихся" а. о. (Met и Lys) вправо, тем самым соединив их с остальными частями их последовательностей;
Убрал из выравнивания пустые столбцы;
Позже были убраны ещё три последовательности из четырёх (W9DY71.1, A0A1X7GL49.1, J9YVF5.1), схожие друг с другом более чем на 95%.

В итоге остаётся 8 последовательностей.

Исходное выравнивание и выравнивание, прошедшее ревизию, вы сможете найти в моём проекте JalView.

После ревизии в этом выравнивании я нашёл (см. проект JalView):

Консервативный вертикальный блок: столбцы 29-248 (я не скопировал номер из примечаний, я понял и осознал, почему именно он), красный прямоугольник;
Консервативный горизонтальный блок: столбцы 1-23, зелёный прямоугольник;
Минус-блок: столбцы 24-28, 249-259, фиолетовый прямоугольник;

К сожалению, честно говоря, про ошибки в выравнивании я так и не понял. Не понял, как их правильно искать и исправлять. Настолько не понял, что даже не знаю, как по этому поводу правильно задать вопрос... Про ошибку в моём конкретном выравнивании я понял, нашёл её и исправил, а также немного лучше понял в целом про то, как искать ошибки в выравниваниях.

3. Ищем все белки с данным доменом Pfam в UniProt

Тут будет ссылка на файл электронных таблиц Excel.

Выбрал я для поиска доменную архитектуру PF01036, PF00211.

Все расчёты количества проводились через функцию Excel СЧЁТЕСЛИ, которая подсчитывает количество ячеек, удовлетворяющих условию, которое я этой функции сообщаю.

Таблица 2. Сравнение полученных данных из UniProt и Pfam
Позиция	UniProt		Pfam
Сколько всего белков нашлось	UniProtKB	TrEMBL	1667
Сколько всего белков нашлось	10929	48	1667
Сколько белков нашлось при ограничении поиска по Pelagibacterales	82		14
Сколько белков нашлось при ограничении поиска по выбранной доменной архитектуре	21		8

Судя по результатам поиска, можно смело сказать, что база данных Pfam на данный момент сильно меньше, чем UniProtKB, хоть и очень удобная, так как в ней реализовано хранилище именно ДОМЕНОВ белков, а не последовательностей белков.

Мною выбранному домену в базе PROSITE соответствуют, почему-то, 2 находки: BACTERIAL_OPSIN_1 и BACTERIAL_OPSIN_RET. Мне не совсем понятно, что из них на самом деле Bac_rhodopsin, но могу предположить, что это просто 2 разные его разновидности, мало чем отличающиеся (судя по названию, лигандами или связанными с ними механизмами работы белка).

4. Проверка выравнивания по совмещению структур

Считается, что пространственная структура консервативнее первичной структуры белка. Это хороший вариант проверить множественное выравнивание белков!

Для этого я выбрал 3 белка с выбранным мною доменом Bac_rhodopsin, для которых ещё и известна пространственная структура. Ими оказались:

Таблица 3. Информация о необходимых в этом задании белках
UniProt ID	а. о. UniProt	PDB ID	PDB ID цепи	а. о. PDB
BACH_HALSA	30 - 260	1E12	A	30 - 260
BACR1_HALC1	22 - 242	1UAZ	A	16 - 236
BACR1_HALMA	8 - 238	4PXK	A	8 - 238

Теперь я посторю множественное выравнивание этих последовательностей с помощью muscle и импортирую его в JalView для более удобного просмотра и анализа, а также построю ещё одно выравнивание по совмещению структур и само совмещение структур с помощью PDBeFold и импортирую это всё в JalView и JMol соответственно также для более удобного рассмотрения.

Ссылка на скрипт. Ссылка на jvp-файл.

Сравнивая "пространственное" выравнивание и множественное выравнивание muscle, я заметил, что они показывают примерно одно и тоже, но не без отличий.

Во-первых, отличаются передние концы выравниваний: вместо непонятных структур с множеством инделей у muscle, PDBeFold показывает вставку на 10 а. о. у BACR1_HALC1.

Во-вторых, отличаются задние концы выравниваний: Тут уже у PDBeFold наблюдается не совсем понятный паттерн с 5 инделями, в то время как muscle выровнял этот участок с таким же количеством инделей, но у 2-х из них была меньшая длина.

К остальной части выравниваний нареканий нет, всё сошлось практически идеально.

Как итог, можно сказать, что множественное выравнивание muscle проверку совмещением структур успешно прошло! Выравнивания отличались минимальным количеством моментов, да и те оказались незначительно важны.