Данный домен является единственным доменом уридин фосфорилазы1 из холерного вибриона. Основная функция белка - катализ обратимого фосфорилитического расщепления уридина и дезоксиуридина на урацил и рибоза или дезоксирибоза-1-фосфат. Полученные молекулы затем используются в качестве источников углерода и энергии или при освобождении пиримидиновых оснований для синтеза нуклеотидов. В связи с функцией белка домен принадлежит к суперсемейству пурин и уридин фосфорилаз - PUP (CL0408)2. Информация о домене получена с его странице в базе данных Pfam3 и отображена в таблице 1.
Наименование | Значение | ||
---|---|---|---|
ID семейства домена | PNP_UDP_1 | ||
AC семейства домена | PF01048 | ||
Общее количество последовательностей с участием домена | 26472 | ||
Количество последовательностей в выравнивании Seed | 112 | ||
Количество доменных архитектур с участием данного | 579 | ||
Количество часто сопровождаемых доменов (наиболее частые по результатам первых 100 архитектур) | 3 (описание представлено ниже) | ||
Количество 3D-структур (рентгены при разных условиях считаются одной записью) | 91 | ||
Название таксона (крупнейшего, содержащего домен) | Bacteria | Eukaryota | Archaea |
Количество последовательностей и видов (через запятую) | 19219, 6031 | 6320, 917 | 750, 317 |
Дата последнего изменения HMM профиля | Fri Aug 3 09:31:38 2018 | ||
Количество позиций профиля (длина) | 234 |
Названия сопровождаемых доменов - NACHT (AC - PF05729), NB-ARC (AC - PF00931) и Ank_2(AC - PF12796). Первый встречается в белках ингибиторах апопотоза и активаторах транскрипции. Функция второго неизвестна. Последний является распространенным структурным доменом, и у него есть страница на Wikipedia.
Для проведения множественного выравнивания использовались последовательности бактерий из рода Photobacterium, близкого к роду Vibrio. Изначально были скачаны 78 последовательностей из 12 видов, файл можно просмотреть по ссылке.
Множественное выравнивание было проведено с помощью программы Muscle (дефолтные параметры запуска). Первоначальное выравнивание без изменений можно просмотреть по ссылке.
После число последовательностей было сокращено до 32 путем удаления отличных в консервативных местах или совпадающих за пределами наиболее распространенной арзитектуры домена (23-270 а.о.).
Полученный файл был раскрашен в программе Jalview. Из проекта были выделены два горизонтальных консервативных блока (то есть 4 последовательности похожи между собой в бОльшей степени, чем с остальными 28, и наоборот 28 походи между собой), сгруппирован лишь меньший из них, один вертикальный консервативный блок, один вертикальный консервативный не по всем последовательностям блок и один минус-блок.
Исправление проводилось в программе Genedoc, в конце выравнивания путем передвижения аминокислотных остатков и вставки гэпов удалось превратить два столбца со смещанным составом аминокислот в пять с более однородным - по лейцину/изолейцину, глицину, глутамату, аспартату/глутамату и аланину. Участок представлен на рисунке, а файл выравнивания можно просмотреть по по ссылке.
По запросу с конструкцией database:(type:pfam pf01048) было выдано 105373 записи, из которых 518 находятся в Swiss-Prot, а остальные 104855 - в TrEMBL.
Ввиду большого количества результатов дополнительно был проведен поиск по таксону Photobacterium. Формулировка запроса как database:(type:pfam pf01048) taxonomy:"Photobacterium [657]" обнаружила уже 304 записи, из которых 3 в Swiss-Prot и 301 - в TrEMBL.
Добавление условия содержания одновременно в двух базах данных Pfam и PROSITE, уменьшает количество результатов до 163 ( 2 в Swiss-Prot, 161 в TrEMBL). Запрос выглаядит как database:(type:pfam pf01048) taxonomy:"Photobacterium [657]" database:(type:prosite). Окончательные результаты с добавление столбцов ссылок на базы данных и указанием таксона скачаны в формате Excel. Их можно скачать по ссылке.
Рассматриваемый домен относительно распространенный, существует свидетельство его существования в различных таксонах. Чаще всего это - бактерии, около 3 четвертей случаев встречаются именно у них. Более того, для отдельных видов известно множество его последовательностей, и было непросто найти таксон, удовлетврояющий условиям количество видов >10 и количество последовательностей <100. Для конкретных видов обычно известно не менее 5 последовательностей, содержащих этот домен.
Сравнение объемов информации баз данных говорит о том, что в Uniprot находится примерно в 4 раза больше записей (по конкретному запросу), чем в Pfam (78 в Pfam против 304 в Uniprot). Выдача Pfam может быть подтверждена скриншотом Sunburst, Uniprot - таблицей. Это можно объяснить большей известностью и количеством источников информации.
При проведении оценки выравнивания часто выделялись группы с похожими в самой группе последовательностями, но не между такими группами. Для уменьшения количества строк в заключительном выранвивании были удалены три такие группы примерно по 15 последовательностей каждая.
Для совмещения 3D-структур были использваны 3 записи PDB, содержащие выше описанный домен и представленные наиболее распространенной архитектурой с единственным доменом на позициях 23-270 аминокислотных остатков. Идентификаторы этих записей - 5EPU4, 4JP55 и 1U1F6.
Все эти белки состоят из 6 одинаковых цепей, поэтому первое множественное выравнивание последовательностей проводилось лишь по цепи А. Просмотреть его можно по ссылке. Дополнительно выравнивание было рассмотрено в Genedoc. Его аналог можно скачать по ссылке.
Для наложения 3D-структур использовался сервис PDBeFold7. Совмещение проводилось по всем 6 цепям, аналогично проводилось второе мульти-выравнивание. Полную текстовую выдачу сервиса можно увидеть по ссылке.
Графический результат работы реализован с помощью программы JMol, на вход которой были доставлены вырезанные из rasmol файла координаты атомов. Он представлен в виде веб-приложения, для которого используется скрипт дефолтный скрипт в коде этой HTML страницы, оставляющий утолщенный остов с раскраской по цепи с предпочтительной для JMol перспективы.
Как можно видеть на изображении структуры преимущественно совпадают, как правило, различаются углы связей, но не расположение аминокислот. В противовес стуктурному наложению выравнивание (fasta файл и msf файл) по 6 цепям выявило консервативные блоки лишь в начале и в конце, все позиции с 225 по 1020 сложно назвать гомологичными. Это необычно, потому что все цепи являются одинаковыми и выравнивание должно было получиться периодичным. Возможно, эвристичекий алгоритм мульти-выравнивания (встроенный в PDBeFold) или параметры запуска оказались недостаточно точными, потому что данное совпадение 3D-структур нельзя назвать случайным. Если удалить все выше указанные позиции, второе выравнивание становится во многом идентично первому, и такие результаты сходятся с выводом из совмещения структур.