Практикум 13. Алгоритмы множественного выравнивания, эволюционные домены белков

Описание домена с кодом доступа PF01048 в базе данных Pfam

Данный домен является единственным доменом уридин фосфорилазы1 из холерного вибриона. Основная функция белка - катализ обратимого фосфорилитического расщепления уридина и дезоксиуридина на урацил и рибоза или дезоксирибоза-1-фосфат. Полученные молекулы затем используются в качестве источников углерода и энергии или при освобождении пиримидиновых оснований для синтеза нуклеотидов. В связи с функцией белка домен принадлежит к суперсемейству пурин и уридин фосфорилаз - PUP (CL0408)2. Информация о домене получена с его странице в базе данных Pfam3 и отображена в таблице 1.

Таблица 1. Характеристики домена
Наименование	Значение
ID семейства домена	PNP_UDP_1
AC семейства домена	PF01048
Общее количество последовательностей с участием домена	26472
Количество последовательностей в выравнивании Seed	112
Количество доменных архитектур с участием данного	579
Количество часто сопровождаемых доменов (наиболее частые по результатам первых 100 архитектур)	3 (описание представлено ниже)
Количество 3D-структур (рентгены при разных условиях считаются одной записью)	91
Название таксона (крупнейшего, содержащего домен)	Bacteria	Eukaryota	Archaea
Количество последовательностей и видов (через запятую)	19219, 6031	6320, 917	750, 317
Дата последнего изменения HMM профиля	Fri Aug 3 09:31:38 2018
Количество позиций профиля (длина)	234

Названия сопровождаемых доменов - NACHT (AC - PF05729), NB-ARC (AC - PF00931) и Ank_2(AC - PF12796). Первый встречается в белках ингибиторах апопотоза и активаторах транскрипции. Функция второго неизвестна. Последний является распространенным структурным доменом, и у него есть страница на Wikipedia.

Анализ выравнивания белков с доменом PNP_UDP_1 внутри рода Photobacterium

Для проведения множественного выравнивания использовались последовательности бактерий из рода Photobacterium, близкого к роду Vibrio. Изначально были скачаны 78 последовательностей из 12 видов, файл можно просмотреть по ссылке.

Множественное выравнивание было проведено с помощью программы Muscle (дефолтные параметры запуска). Первоначальное выравнивание без изменений можно просмотреть по ссылке.

После число последовательностей было сокращено до 32 путем удаления отличных в консервативных местах или совпадающих за пределами наиболее распространенной арзитектуры домена (23-270 а.о.).

Полученный файл был раскрашен в программе Jalview. Из проекта были выделены два горизонтальных консервативных блока (то есть 4 последовательности похожи между собой в бОльшей степени, чем с остальными 28, и наоборот 28 походи между собой), сгруппирован лишь меньший из них, один вертикальный консервативный блок, один вертикальный консервативный не по всем последовательностям блок и один минус-блок.

Исправление выравнивания

Исправление проводилось в программе Genedoc, в конце выравнивания путем передвижения аминокислотных остатков и вставки гэпов удалось превратить два столбца со смещанным составом аминокислот в пять с более однородным - по лейцину/изолейцину, глицину, глутамату, аспартату/глутамату и аланину. Участок представлен на рисунке, а файл выравнивания можно просмотреть по по ссылке.

Поиск белков с доменом PF01048 в базе данных Uniprot

По запросу с конструкцией database:(type:pfam pf01048) было выдано 105373 записи, из которых 518 находятся в Swiss-Prot, а остальные 104855 - в TrEMBL.

Ввиду большого количества результатов дополнительно был проведен поиск по таксону Photobacterium. Формулировка запроса как database:(type:pfam pf01048) taxonomy:"Photobacterium [657]" обнаружила уже 304 записи, из которых 3 в Swiss-Prot и 301 - в TrEMBL.

Добавление условия содержания одновременно в двух базах данных Pfam и PROSITE, уменьшает количество результатов до 163 ( 2 в Swiss-Prot, 161 в TrEMBL). Запрос выглаядит как database:(type:pfam pf01048) taxonomy:"Photobacterium [657]" database:(type:prosite). Окончательные результаты с добавление столбцов ссылок на базы данных и указанием таксона скачаны в формате Excel. Их можно скачать по ссылке.

Результаты и обсуждение

Рассматриваемый домен относительно распространенный, существует свидетельство его существования в различных таксонах. Чаще всего это - бактерии, около 3 четвертей случаев встречаются именно у них. Более того, для отдельных видов известно множество его последовательностей, и было непросто найти таксон, удовлетврояющий условиям количество видов >10 и количество последовательностей <100. Для конкретных видов обычно известно не менее 5 последовательностей, содержащих этот домен.

Сравнение объемов информации баз данных говорит о том, что в Uniprot находится примерно в 4 раза больше записей (по конкретному запросу), чем в Pfam (78 в Pfam против 304 в Uniprot). Выдача Pfam может быть подтверждена скриншотом Sunburst, Uniprot - таблицей. Это можно объяснить большей известностью и количеством источников информации.

При проведении оценки выравнивания часто выделялись группы с похожими в самой группе последовательностями, но не между такими группами. Для уменьшения количества строк в заключительном выранвивании были удалены три такие группы примерно по 15 последовательностей каждая.

Проверка выравнивания по 3D-структуре

Для совмещения 3D-структур были использваны 3 записи PDB, содержащие выше описанный домен и представленные наиболее распространенной архитектурой с единственным доменом на позициях 23-270 аминокислотных остатков. Идентификаторы этих записей - 5EPU4, 4JP55 и 1U1F6.

Все эти белки состоят из 6 одинаковых цепей, поэтому первое множественное выравнивание последовательностей проводилось лишь по цепи А. Просмотреть его можно по ссылке. Дополнительно выравнивание было рассмотрено в Genedoc. Его аналог можно скачать по ссылке.

Для наложения 3D-структур использовался сервис PDBeFold7. Совмещение проводилось по всем 6 цепям, аналогично проводилось второе мульти-выравнивание. Полную текстовую выдачу сервиса можно увидеть по ссылке.

Графический результат работы реализован с помощью программы JMol, на вход которой были доставлены вырезанные из rasmol файла координаты атомов. Он представлен в виде веб-приложения, для которого используется скрипт дефолтный скрипт в коде этой HTML страницы, оставляющий утолщенный остов с раскраской по цепи с предпочтительной для JMol перспективы.

Как можно видеть на изображении структуры преимущественно совпадают, как правило, различаются углы связей, но не расположение аминокислот. В противовес стуктурному наложению выравнивание (fasta файл и msf файл) по 6 цепям выявило консервативные блоки лишь в начале и в конце, все позиции с 225 по 1020 сложно назвать гомологичными. Это необычно, потому что все цепи являются одинаковыми и выравнивание должно было получиться периодичным. Возможно, эвристичекий алгоритм мульти-выравнивания (встроенный в PDBeFold) или параметры запуска оказались недостаточно точными, потому что данное совпадение 3D-структур нельзя назвать случайным. Если удалить все выше указанные позиции, второе выравнивание становится во многом идентично первому, и такие результаты сходятся с выводом из совмещения структур.