В качестве исследуемого домена был выбран фасциклиновый домен - предположительно, он представляет собой домен клеточной адгезии, встречается как у бактерий, так и у животных и растений[1]. На страницу домена можно перейти по этой ссылке. Основную информацию о домене можно найти в Таблице 1.
Название домена | Fasciclin domain |
ID | Fasciclin |
AC | PF02469 |
Число последовательностей в выравнивании(seed) | 121 |
Число последовательностей(full) | 18024 |
Число доменных архитектур | 309 |
Число 3D структур | 6 |
Число белков с доменом по таксонам | Eukaryota — 5967 Bacteria — 5108 Archaea - 127 |
Дата создания | Среда 01.08.2018 23:37:30 |
Число позиций | 128 |
Фасциклиновый домен обычно не находится рядом с другими доменами - он либо является единственным доменом в белке, либо представлен несколькими копиями. Однако иногда он находится рядом с доменами S-layer homology (42 последовательности с такой архитектурой) и с доменами с неизвестной функцией.
Был выбран таксон Rodenta, содержащий 10 видов и 52 последовательностей с интересующим нас доменом. После этого был скачан fasta-файл с последовательностями, который затем мы выровняли в JalView.
Полученное выравнивание можно скачать здесь.[ссылка на выравнивание].
Примечательно, что хоть в SunBurst было сказано, что существует 52 последовательности с этим доменом, в сгенерированном fasta-файле их оказалось намного больше.
Это, вероятно, можно объяснить тем, что данный домен часто встречается в белке больше, чем один раз.
Воспользовавшись опцией Jump to.. в Pfam мы подтвердили наше предположение - в частности, в белке A0A091E5C8.1 фасциклиновый домен встречается целых 6 раз.
Сначала были удалены последовательности, которые очень сильно отличались от большего количества - например те, у которых был большой уникальный
кусок последовательности в начале
или в конце.
Затем были применены команды Remove Empty Columns, а также Remove Redundancy, которые убрали ненужные гэпы в начале и в конце ( ненужные, так как
последовательности с выпирающим началом или концом уже были удалены), скомпактизировали выравнивание и убрали избыточные последовательности.
После этого удалялись последовательности с уникальными частями. Полученный msf-файл можно скачать здесь.
Затем с помощью GeneDoc был найден консервативный блок(пример такого можно посмотреть на Рисунке 6, но консервативных блоков очень много), консервативный блок, в
который входят не все последовательности (Рисунок 7).
По поводу минус блока (Рисунок 8) возникли сложности, вероятно, это связано с тем, что большая часть белков, содержащих фасциклиновый домен, задействована в ангиогенезе у
грызунов( стабилин, Transforming growth factor beta induced protein). Этот процесс очень важен, и можно предположить, что белки, задействованные в нём, являются
довольно консервативными.
Был произведен поиск всех белков, содержащих домен Fasciclin в базе данных UniProt.(текст запроса -
database:(type:pfam pf02469))
Было обнаружено 31938 записей, из которых 59 находятся в базе данных Swiss-Prot. К сожалению, UniProt(или мой браузер) не дал скачать таблицу на 32 тысячи строк,
поэтому пришлось скачивать таблицы раздельнo:
Eukaryota (13061 запись, из которых 47 в Swiss-Prot)[
ссылка на скачивание таблицы]
Archaea (547 записей, ни одной в Swiss-Prot)[
ссылка на скачивание таблицы]
Bacteria (18256 последовательностей, 11 в Swiss-Prot) [
ссылка на скачивание таблицы]
Можно заметить, что число последовательностей в сумме не равно числу последовательностей, выданному на более общий запрос. Как оказалось, фасциклиновый домен
встречается и в вирусах, в Pfam на Sunburst выбрать вирусы нельзя, т.к. количество вирусных белков на несколько порядков меньше количества бактериальных и
эукариотических белков.
Сравним количество белков в UniProt и в Pfam.
UniProt | Pfam | |
Bacteria | 18256 | 5108 |
Archaea | 547 | 127 |
Eukaryota | 13061 | 5967 |
Из таблицы 2 видно, что в UniProt содержится намного больше информации о разных последовательностях, чем в Pfam.
В таблице не была показана доменная архитектура, там лишь были перечислены домены, найденные в последовательности того или иного белка. Поэтому мы просто сделали
запрос в Uniprot (database:(type:pfam pf02469) database:(type:pfam pf00395)), чтобы найти
S-layer homology domain вместе с Fasciclin domain , а затем проверяли каждый белок в базе UniProt. Это было долго.
В итоге было найдено 94 белка с такой архитектурой и все они принадлежали
различным видам цианобактерий. Более того, почти все эти бактерии принадлежат к порядку Nostocales, поэтому
такая архитектура белка может быть продиктована эволюционной близостью.
Для сравнения, в Pfam нашлось лишь 42 последовательности. Это говорит о том, что база данных UniProt обновляется намного чаще, чем база данных Pfam.
В PROSITE соответствующим доменом является домен PS50213.
Для выравнивания были выбраны 3 белка с известной 3D-структурой (ID белков кликабельны и являются ссылками на их страницы в UniProt):
BGH3_HUMAN - Transforming growth factor-beta-induced protein ig-h3, принадлежащий Homo sapiens
POSTN_HUMAN - Periostin, принадлежащий Homo sapiens
MP70_MYCTU - Immunogenic protein MPT70, принадлежащий Mycobacterium tuberculosis
Сначала мы провели выравнивание этих белков с помощью muscle(файл можно скачать
здесь). Затем с помощью программы PDBeFold мы провели множественное структурное выравнивание [
ссылка на fasta-файл]. JMoL-апплет может не загрузиться, поэтому на всякий случай
прилагаю картинку
В структурах всех 3 белков видна область, которая хорошо выровнена - это и есть фасциклиновый домен. Ниже представлен Jmol-апплет с выравниванием.
Можно сказать, что структурное выравнивание даёт более наглядную информацию об эволюционных изменениях белка, так как даже если произошла замена на похожую по химическим свойствам аминокислоту, структура домена от этого существенно не изменится. Например, если судить по визуализации выравнивания muscle в JalView, то намного сложнее найти общий домен в этих трёх белках. Сравнивать выравнивания сложно, так как в PDBeFold были загружены неполные последовательности белков (об этом подробнее в UPDATED).
Мне показалось достаточно странным, что в структурном выравнивании
по длине выделяется только фактор роста BGH3_HUMAN, хотя длина белка периостина составляет примерно 630
аминокислотных остатков.
Поискав информацию о периостине, я обнаружил, что структуры периостина в PDB нет - есть только структуры его димера и его фасциклинового домена. И в Pfam указана
3D-структура фасциклинового домена. Поэтому на
выравнивании в JalView длина периостина намного больше, чем в структурном выравнивании. Всё это, конечно, не отменяет выводов о существовании домена в этих трёх
белках.