1. Поиск структурных гомологов

Найдите структурных гомологов вашего белка и выберите 2-4 из них. Используйте поиск по сходству структур в PDBeFold. Постройте совмещение структур вашего белка и выбранных структурных гомологов.

Для работы с этим заданием я взял структуру 2XMD бутирилхолинэстеразы человека. Был использован сервис PDBeFold. Всего было найдено 498 значимых находок, из них я выбрал 3, информация о них приведена в таблице 1. Для этих четырех белков было получено структурно выравнивание PDBeFold, также было получено совмещение в виде rasmol-скрипта и преобразовано в pse-сессию PyMol.

Таблица 1.
Выбранные структурные гомологи

Белок Структура RMSD %sse %seq
Ацетилхолинэстераза мышы 5DTI 1.09 97 54
Карбоксилэстераза человека 2H7C 1.58 85 35
Нейролигин-4 2XB6 1.73 88 37

Рис.1
Наложение структур 2XMD, 5DTI, 2H7C и 2XB6: cartoon

Получено с помощью PDBeFold, визуализация в PyMol в виде cartoon. Цветовая кодировка: 2XMD синий, 5DTI голубой, 2H7C белый, 2XB6 серый.

Рис.2
Наложение структур 2XMD, 5DTI, 2H7C и 2XB6: ribbon

Получено с помощью PDBeFold, визуализация в PyMol в виде ribbon (соединенные C-alpha атомы). Цветовая кодировка: 2XMD синий, 5DTI голубой, 2H7C белый, 2XB6 серый.

Были скачаны последовательности вышеназванных белков в формате fasta и выровнены с помощью mafft. Также было получено структурно-опосредованное выравнивание PDBeFold. Выравнивания были визуализированы с помощью Jalview.

Рис.3
Выравнивание последовательностей с помощью mafft

Полное изображение доступно по клику

Рис.4
Выравнивание последовательностей по структурному совмещению помощью PDBeFold

Полное изображение доступно по клику

Я попытался найти участки, на которых выравнивания значительно отличаются. Эти участки показаны на рис.5 и рис.7 (mafft и pdbefold соответственно). Выравнивание по последовательностям mafft расположило в одной колонке тирозин 2xmd, тирозин 5dti, триптофан 2h7c и треонин 2xb6. В это же время в структурно-опосредованном выравнивании этому же тирозину в структуре 2xmd соответсвуют исключительно тирозины остальных белков, что можно было скорее ожидать от выравнивания последовательностей. Тирозин белка 2h7c, поставленный в соответствие остальным тирозинам в выравнивании PDBeFold, по итогу работы mafft оказался на 20 остатков правее, тирозин белка 2xb6 — на один левее.

Чтобы оценить, какое выравнивание является более достоверным, я затем выделил эти остатки на структуре (см. рис.6 и рис.8). Все тирозины, расположенные в структурно-опосредованном выравнивании в одной колонке, ожидаемо оказались также структурно совмещенными и обращенными в одну сторону. Если же нанести остатки, расположенные в одной колонке по версии mafft, то окажется, что треонин 2xb6 (показан серым) расположен у левого края альфа-спирали, а триптофан 2h7c (показан белым) — у правого, на большом расстоянии от рассматриваемых тирозинов. По полученным данным видно, что структурно-опосредованное выравнивание PDBeFold более достоверно отражает реальную роль и положение остатков в структуре белков, в то время как использование выравнивания только последовательностей может привести к тому, что очевидно совпадающие остатки не будут расположены в одной колонке выравнивания.

Рис.5 Участок выравнивания mafft

Рис.7
Фрагмент наложенных структур с выделенными остатками, расположенными в одной колонке выравнивания mafft

Рис.6 Участок выравнивания PDBeFold

Рис.8
Фрагмент наложенных структур с выделенными остатками, расположенными в одной колонке выравнивания PDBeFold

2. Совмещение по заданному выравниванию

Для этого задания предлагается выровнять структуры константных доменов Т-клеточного рецептора из цепочек альфа и бета. Для работы я взял альфа-цепочку из структуры 1OGA, бета-цепочку из структуры 1QSE. Константный домен для альфа-цепочки в структуре 1OGA соответствует остаткам с 118 по 202 цепи D. Константный домен для бета-цепочки из структуры 1QSE соответствует остаткам с 119 по 246 цепи E. На рис.9 показан результат совмещения этих участков с помощью функции align в PyMol. Видно, что полученное совмещение не имеет никакого смысла.


Рис.9
Совмещение константных доменов

Белым показана бета-цепочка из 1QSE, красным — альфа-цепочка из 1OGA.

Решить эту проблему предполагается, совместив домены по некоторому множеству атомов, предположительно расположенных одинаково в обеих структурах. Для этих целей предполагается использовать консервативный цистеин и его окружение в бета-листе. Для его нахождения я построил карты бета-листов, расположенных в рамках константных доменов, с помощью SheeP. Карты показаны на рис.10 и рис.11 для константных доменов альфа- и бета-цепочек соответственно.

Рис.10 Карта бета-листов альфа цепочки 1OGA

Рис.11 Карта бета-листов бета цепочки 1QSE

Консервативным цистеином в 1OGA является Cys134, в 1QSE — Cys147. В качестве множеств атомов для выравнивания были взяты C-alpha атомы соседей (за исключением Val129:1QSE — Gln122:1OGA, т.к. Val129 скорее всего расположен в нерегулярности бета-структуры. С помощью PyMol были построены эти множества и проведено выравнивание структур по ним. Код представлен справа. Изображение совмещенных структур представлено на рис.12. Видно, что некоторые бета-тяжи совместились неплохо, хотя выравнивание все еще далеко от идеального.

fetch 1oga
fetch 1qse
create 1oga_alpha, 1oga and chain D and resi 118-202
create 1qse_beta, 1qse and chain E and resi 119-246
hide everything, 1oga or 1qse
select alpha, 1oga_alpha and resi 121+123+133-135+174-176 and name CA
select beta, 1qse_beta and resi 128+130+146-148+193-195 and name CA
pair_fit alpha, beta

Рис.12 Совмещение структур константных доменов по заданному множеству атомов

Альфа-цепочка показана синим, бета — белым.

Гибкое структурное выравнивание

В данном практикуме предлагалось найти примеры белков, для которых гиброе выравнивание дает большее количество выровненных остатков, чем жесткое. Я решил сделать это задание на примере своего основного белка — бутирилхолинэстеразы человека 2XMD. Для этого я провел Database Search на сайте сервиса FATCAT против набора scop206_40 (40% неизбыточный набор, состоящий из 13758 структур). Всего было айдено 67 структур с p-value > 0.05. Также я провел поиск PDBeFold против всех PDB с настройкой Lowest acceptible match 20% как для query, так и для target. Затем я выбрал только те структуры, которые были найдены обоими сервисами.

На рис. 13 представлено сравнение длины выравнивания opt-len в FATCAT (длина выравнивания - число гэпов) с числом совмещенных остатков в PDBeFold (Nalign). Как видно, почти для всех структур число выровненных остатков выше при выравнивнии гибким методом FATCAT. Для дальнейшей работы был выбран белок 4JNC, выравнивание 2XMD с которым соответствует красной точке на графике.

На рис. 14 представлено сравнение RMSD выровненных структур гибким методом FATCAT и PDBeFold. Видно, что в целом RMSD больше у FATCAT. Получается, что гибкое выравнивание стремится совместить структуры по-максимуму, обычно жертвуя точностью совмещения отдельных остатков.

Рис. 13 Сравнение количества сопоставленных остатков
Рис. 14 Сравнение RMSD

Белок 4JNC представляет собой эпоксид гидролазу. Жесткое структурное выравнивание PDBeFold (см. рис. 15) сопоставляет 167 остатков, и RMSD равно 2.69. В то же время гибкое выравнивание FATCAT (см. рис. 16) сопоставляет 259 остатков, однако RMSD заметно выше — 4.13.

Рис. 15 Выравнивание PDBeFold. 2XMD красный, 4JNC синий.
Рис. 16 Выравнивание FATCAT. 2XMD красный, 4JNC синий.