Для того, чтобы создать выборку гомологов белка yxiM_bacsu, проще всего воспользоваться программой BLAST.
Найдём последовательности белков прокариот, наиболее близкие к последовательности исходного белка, исключив из поиска домен Eukarya и филум Firmicutes, добавив их названия в поле Organism и поставив галочку напротив exclude. Таким образом, находки будут только из прокариот, причём без филума, в который входит Bacillus subtilis - там были бы находки с очень большим весом, что исказило бы результаты поиска. Для начала значения Expect threshold и Max target sequences выставим на 1 и 500 соответственно.
В выдаче находка под номером 478 имеет значение e-value 1e-04, ниже следуют не очень хорошие выравнивания, ограничимся первыми 478 хитами: запустим поиск снова, на этот раз со значением Expect threshold 1e-04. С помощью выдачи GenBank получим дерево таксонов, к которым принадлежат организмы, в которых обнаружены гомологи (см. рис.1), и создадим файл с последовательностями отобранных гомологов и исходного белка.
Рис.1. Дерево таксонов организмов, в которых найдены гомологи белка yxiM_bacsu, отобранных для репрезентативной выборки |
По такому же принципу составим выборку гомологов из эукариотических организмов (fasta-файл с последовательностями можно найти здесь). Окончательные параметры поиска для составления обеих выборок представлены в таблице 1.
Таблица 1. Параматры BLAST, использованные для составления выборки
Поиск | Алгоритм BLAST | Название базы данных | Ограничения по таксонам | Порог e-value | Максимальное количество хитов |
По прокариотам | blastp (protein blast) |
RefSeq | exclude Eukarya exclude Firmicutes |
1e-04 | 500 |
По эукариотам | blastp (protein blast) |
RefSeq | Eukarya | 7e-04 | 50 |
Нагляднее всего представить выборку в виде таблицы с пречислением таксонов, к которым относятся отобранные гомологи (см. таблицу 2).
Таблица 2. Встречаемость гомологов белка yxiM в различных таксонах
Домен | Филум/Царство | Название организма | Идентификатор белка |
Archaea | Euryarchaeota | Halopiger xanaduensis SH-6 | YP_004585795.1 |
Haloferax volcanii DS2 | YP_003534586.1 | ||
Bacteria | Acidobacteria group | Arthrobacter sp. SJCon | ZP_21140790.1 |
Brachybacterium faecium DSM 4810 | YP_003156277.1 | Actinobacteria | Streptomyces sp. PAMC26508 | YP_007863706.1 |
Streptomyces venezuelae ATC 10712 | YP_006882151.1 | ||
Arthrobacter phenanthrenivorans Sphe3 | YP_004243075.1 | ||
CFB group bacteria | Spirosoma linguale DSM 74 | YP_003386080.1 | |
Niastella koreensis GR20-10 | YP_005010948.1 | ||
Echinicola vietnamensis DSM 17526 | YP_007225329.1 | ||
Flavobacterium johnsoniae UW101 | YP_001196553.1 | ||
Bacteroides thetaiotaomicron VPI-5482 | NP_813084.1 | ||
Alistipes sp. JC136 | ZP_10996974.1 | ||
Bacteroides vulgatus ATCC 8482 | YP_001297532.1 | ||
Bacteroides sp. HPS0048 | WP_002559351.1 | ||
Firmicutes | Bacillus subtilis subsp. subtilis 6051-HGW | P42304 | |
Planctomycetes | Planctomyces brasiliensis DSM 5305 | YP_004272342.1 | |
Planctomyces maris | WP_002648236.1 | ||
Proteobacteria | Xanthomonas axonopodis Xac29-1 | YP_007634668.1 | |
Xanthomonas axonopodis pv. citrumelo F1 | YP_004849764.1 | ||
Caulobacter segnis ATCC 21756 | YP_003593797.1 | ||
Spirochaetes | Treponema saccharophilum | WP_002704685.1 | |
Veruccomicrobia | Opitutus terrae PB90-1 | YP_001818241.1 | |
Opitutaceae bacterium TAV5 | ZP_09594401.1 | ||
Eukarya | Fungi | Nectria haematococca mpVI 77-13-4 | XP_003041737.1 |
Magnaporthe oryzae 70-15 | XP_003711617.1 | ||
Sordaria macrospora k-hell | XP_003351132.1 | ||
Aspergillus oryzae RIB40 | XP_001820336.1 | ||
Aspergillus niger CBS 513.88 | XP_001402292.2 | ||
Aspergillus oryzae RIB40 | XP_001823387.1 | ||
Aspergillus oryzae RIB40 | XP_001822334.1 | ||
Fusarium graminearum PH-1 | XP_385024.1 | ||
XP_383706.1 | |||
Schizophyllum commune H4-8 | XP_003038737.1 | ||
Tuber melanosporum Mel28 | XP_002837400.1 | ||
Podospora anserina S mat+ | XP_001906534.1 | ||
Penicillium chrysogenum Wisconsin 54-1255 | XP_002559978.1 | ||
Talaromyces stipitatus ATCC 10500 | XP_002486322.1 | ||
Neurospora crassa OR74A | XP_958094.1 | ||
Phaeosphaeria nodorum SN15 | XP_001798248.1 | ||
Neosartorya fischeri NRRL 181 | XP_001261200.1 | ||
Aspergillus fumigatus Af293 | XP_756059.1 | ||
Sclerotinia sclerotiorum 1980 | XP_001587019.1 | ||
Brachybacterium_faecium_DSM_4810 | YP_003156277.1 | ||
Viridiplantae | Ricinus communis | XP_002537810.1 |
Создав fasta-файл с последовательностями гомологов и исходного белка, используем его в качестве входных данных для программы выравнивания на сайте UniProt. Сохраним выравнивание в формате fasta, чтобы редактировать его через Jalview. Там добавим строки STRUCTURE (с отметками α-спиарлей и β-листов), BLOCKS (где отмечены блоки выравнивания), LIGAND (где отмечены аминокислотные остатки, связывающие лиганд) и ACT SITE (где отмечены аминокислотные остатки, входящие в активный сайт по данным записи белка yxiM в базе данных SRS).
Изображение выравнивания представлено на рисунке 2.
Рис.2. Изображение выравнивания последовательностей гомологов белка yxiM. В строке BLOCKS буквами B обозначены блоки, в строке LIGAND буквой М отмечены аминокислотные остатки, связывающиеся с ионом марганца, буквой S - с сульфат-ионом. Аминокислотные остатки, входящие в активный сайт обозначены буквой А в строке ACT SITE. Полноразмерное изображение можно найти здесь. |
В получившемся выравнивании можно выделить хорошо выровненный участок (на позициях 190-540) и плохо выровненные части (всё остальное). На этом участке расположена большая часть блоков[1], они примерно совпадают с элементами вторичной структуры. Колонки гэпов наоборот, расположены в промежутках между α-спиарлями и β-листами, никогда полностью не совпадают с ними. Так как вторичная структура гомологов консервативна на этом участке, можно предположить, что здесь находится функционально важный домен.[2]
PDB-файл белка yxiM_bacsu содержит информацию о двух лигандах - ионе марганца и сульфат-ионе (подробности на этой странице). Однако остатки, связывающие эти лиганды совсем не консервативны и даже отсутствуют у большинства гомологов (см. рис.3). Отсюда можно сделать два вывода. Либо N-концевой участок белка, где они расположены, является доменом, функционирующим только у B. subtilis, и они всё же играют какую-то роль. Либо эти два иона на самом деле не являются лигандами белка, они нужны были для кристаллизации при исследовании структуры и попали в запись по ошибке. Вторая версия выглядит более вероятной.
Рис.3. Вторичная структура белка yxiM. Толстым wireframe выделены остатки, связывающие лиганды. Атомы лигандов покрашены стандартными цветами и изображены шарообразно. Наиболее консервативные аминокислотные остатки окрашены наиболее интенсивно, малоконсервативные - бледнее. Остатки, связывающие лиганд, окрашены белым, из-за отсутствия консервативности. |
В то же время, аминокислотные остатки, входящие в активный сайт белка, более консервативны. Серин 186 (220-ая позиция в выравнивании) сохраняется у всех гомологов, глутамат 354 (480-ая позиция в выравнивании) у половины и у нескольких заменён на сходный по свойствам аспартат.
Хуже всего выровнены N-концы гомологов, потому что там расположены сигнальные последовательности, которые отличаются у различных организмов. Плохо выровнен и С-конец после описанного выше домена. Вероятно, этот участок маловажен для работы белка.
[1] - Основными критериями для выделения блоков служили: а) отсутствие гэпов на всей толщине выравнивания; б) высокая консервативность.
[2] - В описании белка на сайте PDB (см. по ссылке)
указано, что это домен SGNH гидролаз.