Эволюционные домены и работа с Pfam


Информация о домене в Pfam

В качестве исследуемого домена был выбран фасциклиновый домен - предположительно, он представляет собой домен клеточной адгезии, встречается как у бактерий, так и у животных и растений[1]. На страницу домена можно перейти по этой ссылке. Основную информацию о домене можно найти в Таблице 1.

Таблица 1. Основная информация о домене.
Название домена Fasciclin domain
ID Fasciclin
AC PF02469
Число последовательностей в выравнивании(seed) 121
Число последовательностей(full) 18024
Число доменных архитектур 309
Число 3D структур 6
Число белков с доменом по таксонам Eukaryota — 5967
Bacteria — 5108
Archaea - 127
Дата создания Среда 01.08.2018 23:37:30
Число позиций 128

Фасциклиновый домен обычно не находится рядом с другими доменами - он либо является единственным доменом в белке, либо представлен несколькими копиями. Однако иногда он находится рядом с доменами S-layer homology (42 последовательности с такой архитектурой) и с доменами с неизвестной функцией.


Рисунок 1. Архитектура с одним доменом Fasciclin.


Рисунок 2. Архитектура с двумя доменами Fasciclin.


Рисунок 3. Архитектура с одним доменом Fasciclin и тремя доменами S-layer homology domain.

Рисунок 4. Архитектура с одним доменом Fasciclin и доменом с неизвестной функцией.

Анализ выравнивания в Pfam

Был выбран таксон Rodenta, содержащий 10 видов и 52 последовательностей с интересующим нас доменом. После этого был скачан fasta-файл с последовательностями, который затем мы выровняли в JalView. Полученное выравнивание можно скачать здесь.[ссылка на выравнивание]. Примечательно, что хоть в SunBurst было сказано, что существует 52 последовательности с этим доменом, в сгенерированном fasta-файле их оказалось намного больше. Это, вероятно, можно объяснить тем, что данный домен часто встречается в белке больше, чем один раз.
Воспользовавшись опцией Jump to.. в Pfam мы подтвердили наше предположение - в частности, в белке A0A091E5C8.1 фасциклиновый домен встречается целых 6 раз.

Рисунок 5. Наличие шести фасицклиновых доменов в одном белке.

Сначала были удалены последовательности, которые очень сильно отличались от большего количества - например те, у которых был большой уникальный кусок последовательности в начале или в конце.
Затем были применены команды Remove Empty Columns, а также Remove Redundancy, которые убрали ненужные гэпы в начале и в конце ( ненужные, так как последовательности с выпирающим началом или концом уже были удалены), скомпактизировали выравнивание и убрали избыточные последовательности.
После этого удалялись последовательности с уникальными частями. Полученный msf-файл можно скачать здесь.

Затем с помощью GeneDoc был найден консервативный блок(пример такого можно посмотреть на Рисунке 6, но консервативных блоков очень много), консервативный блок, в который входят не все последовательности (Рисунок 7).
По поводу минус блока (Рисунок 8) возникли сложности, вероятно, это связано с тем, что большая часть белков, содержащих фасциклиновый домен, задействована в ангиогенезе у грызунов( стабилин, Transforming growth factor beta induced protein). Этот процесс очень важен, и можно предположить, что белки, задействованные в нём, являются довольно консервативными.


Рисунок 6. Консервативный блок (56-80).


Рисунок 7. Консервативный блок не для всех последовательностей(окрестность 560: 557-565)


Рисунок 8. Минус блок в окрестности 780 (777-786), однако видно, что есть несколько групп фрагментов, которые похожи внутри этой группы, но сами группы между собой не схожи..

Поиск белков с фасциклиновым доменом в UniProt

Был произведен поиск всех белков, содержащих домен Fasciclin в базе данных UniProt.(текст запроса - database:(type:pfam pf02469)) Было обнаружено 31938 записей, из которых 59 находятся в базе данных Swiss-Prot. К сожалению, UniProt(или мой браузер) не дал скачать таблицу на 32 тысячи строк, поэтому пришлось скачивать таблицы раздельнo:

Eukaryota (13061 запись, из которых 47 в Swiss-Prot)[ ссылка на скачивание таблицы]

Archaea (547 записей, ни одной в Swiss-Prot)[ ссылка на скачивание таблицы]

Bacteria (18256 последовательностей, 11 в Swiss-Prot) [ ссылка на скачивание таблицы]

Можно заметить, что число последовательностей в сумме не равно числу последовательностей, выданному на более общий запрос. Как оказалось, фасциклиновый домен встречается и в вирусах, в Pfam на Sunburst выбрать вирусы нельзя, т.к. количество вирусных белков на несколько порядков меньше количества бактериальных и эукариотических белков.
Сравним количество белков в UniProt и в Pfam.

Таблица 2. Сравнение количества найденных последовательностей в разных базах данных.
UniProt Pfam
Bacteria 18256 5108
Archaea 547 127
Eukaryota 13061 5967

Из таблицы 2 видно, что в UniProt содержится намного больше информации о разных последовательностях, чем в Pfam.

В таблице не была показана доменная архитектура, там лишь были перечислены домены, найденные в последовательности того или иного белка. Поэтому мы просто сделали запрос в Uniprot (database:(type:pfam pf02469) database:(type:pfam pf00395)), чтобы найти S-layer homology domain вместе с Fasciclin domain , а затем проверяли каждый белок в базе UniProt. Это было долго.

В итоге было найдено 94 белка с такой архитектурой и все они принадлежали различным видам цианобактерий. Более того, почти все эти бактерии принадлежат к порядку Nostocales, поэтому такая архитектура белка может быть продиктована эволюционной близостью.
Для сравнения, в Pfam нашлось лишь 42 последовательности. Это говорит о том, что база данных UniProt обновляется намного чаще, чем база данных Pfam.
В PROSITE соответствующим доменом является домен PS50213.

Структурное выравнивание белков

Для выравнивания были выбраны 3 белка с известной 3D-структурой (ID белков кликабельны и являются ссылками на их страницы в UniProt):

BGH3_HUMAN - Transforming growth factor-beta-induced protein ig-h3, принадлежащий Homo sapiens

POSTN_HUMAN - Periostin, принадлежащий Homo sapiens

MP70_MYCTU - Immunogenic protein MPT70, принадлежащий Mycobacterium tuberculosis

Сначала мы провели выравнивание этих белков с помощью muscle(файл можно скачать здесь). Затем с помощью программы PDBeFold мы провели множественное структурное выравнивание [ ссылка на fasta-файл]. JMoL-апплет может не загрузиться, поэтому на всякий случай прилагаю картинку


Рисунок 9. Структурное выравнивание трёх белков. Синий - POSTN_HUMAN, зелёный - BGH3_HUMAN, жёлтый - MP70_MYCTU


В структурах всех 3 белков видна область, которая хорошо выровнена - это и есть фасциклиновый домен. Ниже представлен Jmol-апплет с выравниванием.


Можно сказать, что структурное выравнивание даёт более наглядную информацию об эволюционных изменениях белка, так как даже если произошла замена на похожую по химическим свойствам аминокислоту, структура домена от этого существенно не изменится. Например, если судить по визуализации выравнивания muscle в JalView, то намного сложнее найти общий домен в этих трёх белках. Сравнивать выравнивания сложно, так как в PDBeFold были загружены неполные последовательности белков (об этом подробнее в UPDATED).

Выравнивание
Рис.10. Выравнивание, полученное с помощью команды muscle. Раскраска Clustal.

Выравнивание
Рис.11. Выравнивание, полученное с помощью PDBeFold. Раскраска Clustal.

Структурное выравнивание белков (UPDATED)

Мне показалось достаточно странным, что в структурном выравнивании по длине выделяется только фактор роста BGH3_HUMAN, хотя длина белка периостина составляет примерно 630 аминокислотных остатков.
Поискав информацию о периостине, я обнаружил, что структуры периостина в PDB нет - есть только структуры его димера и его фасциклинового домена. И в Pfam указана 3D-структура фасциклинового домена. Поэтому на выравнивании в JalView длина периостина намного больше, чем в структурном выравнивании. Всё это, конечно, не отменяет выводов о существовании домена в этих трёх белках.