Множественное выравнивание

Создание репрезентативной выборки гомологов белка KAD_BACSU

Сначала был проведен поиск гомологов среди прокариот за исключением филума Firmicutes, к которому и относится Bacilus subtilis. Однако все оказалось не так просто.
Оказалось, что гомологов моего белка слишком много (более 10000), поэтому выдачу GenBank о них получить не удалось, так как размер запроса превышает лимит для сервера NCBI, а если ограничить количество хитов на 500 (максимальное количество, при котором можно получить выдачу GenBank), то e-value останавливается где-то на e-50.
Поэтому пришлось делать несколько запросов по отдельным филумам. Аналогичным образом пришлось поступить с запросом по эукариотам. Параметры для всех запросов (за исключением фильтра по таксонам) были едины:

Поиск Алгоритм BLAST Название базы данных Ограничения по таксонам Порог e-value Максимальное количесвто хитов
По прокариотам blastp RefSeq см таблицу 1' 1 20000
По эукариотам blastp RefSeq см таблицу 1' 1 1542
Таблица 1.Параметры запуска BLAST.


Запрос № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Таксон Nitrospinae
Ignavibacteria
Tenericutes
Synergistetes
Poribacteria
Lentisphaerae
Chlamydiae
Thermodesulfobacteria
Chrysiogenetes
Deferribacteres
Thermotogae
Chloroflexi
Aquificae
Gemmatimonadetes
Elusimicrobia
Dictyoglomi
Armatimonadetes
Caldiserica
Fibrobacteres
Acidobacteria
Nitrospirae
Cyanobacteria Fusobacteria Spirochaetes Chlorobi
Bacteroidetes
Planctomycetes Deinococcus-Thermus Thaumarchaeota
Nanoarchaeota
Korarchaeota
Euryarchaeota
Crenarchaeota
a-Proteobacteria b-Proteobacteria d-Proteobacteria e-Proteobacteria g-Proteobacteria Actinobacteria
Запрос № 1 2 3 4
Таксоны Animlas Fungi Amoebozoa Филумы запросов 1-3 + exclude
Таблица 1'. Фильтр по таксонам в запросах BLAST.

В этом файле приведены полные деревья по всем таксонам. Единое дерево приведено ниже, но по известным причинам оно неполное.

Рисунок 1. Филогенетическое дерево гомологов KAD_BACSU у прокариот.

Рисунок 2. Филогенетическое дерево гомологов KAD_BACSU у эукариот.


В результате поиска была составлена выборка гомологов у разных организмов, она приведена в таблице ниже. Из каждого организма взято по одному белку.

Домен Филум Вид Количество хитов на филум
Archeae Crenarchaeota Thermofilum pendens 31
Euryarcheota Haloferax larsenii 271
Methanosarcina mazei
Korarcheota Korarchaeum cryptofilum 1
Bacteria Acidobacteria Terriglobus saanensis 6
Actinobacteria Actinomyces odontolyticus 434
Turicella otitidis
Conexibacter woesei
Aquificae Hydrogenivirga sp. 12
Bacteroidetes (CFB) Barnesiella intestinihominis 240
Dyadobacter fermentans
Caldiserica Caldisericum exile 1
Chlamydiae Diplosphaera colitermitum 31
Chlorobi Chlorobium phaeobacteroides 12
Chloroflexi Oscillochloris trichoides 26
Chrysiogenetes Desulfurispirillum indicum 2
Cyanobacteria Microcystis aeruginosa 196
Oscillatoria sp.
Anabaena variabilis
Deferribacteres Denitrovibrio acetiphilus 6
Deinococcus-Thermus Truepera radiovictrix 27
Oceanithermus profundus
Dictyoglomi Dictyoglomus thermophilum 2
Elusimicrobia Elusimicrobium minutum 1
Fibrobacteres Fibrobacter succinogenes 2
Firmicutes Bacillus subtilis .
Fusobacteria Ilyobacter polytropus 34
Leptotrichia goodfellowii
Gemmatimonadetes Gemmatimonas aurantiaca 1
Ignavibacteria Ignavibacterium album 3
Lentisphaerae Lentisphaera araneosa 1
Nitrospinae Nitrospina gracilis 1
Nitrospirae Thermodesulfovibrio yellowstonii 4
Planctomycetes Blastopirellula marina 42
a-Proteobacteria Agrobacterium radiobacter 500
Rickettsia africae
Commensalibacter intestini
b-Proteobacteria Alcaligenes sp. 195
Neisseria mucosa
Nitrosospira multiformis
d-Proteobacteria Desulfovibrio magneticus 91
Corallococcus coralloides
Bacteriovorax marinus
e-Proteobacyeria Helicobacter cetorum 236
Arcobacter nitrofigilis
Nautilia profundicola
g-Proteobacteria Escherichia coli 500
Vibrio parahaemolyticus
Aeromonas aquariorum
Spirochetes Treponema primitia 78
Leptospira borgpetersenii
Synergistetes Aminobacterium colombiense 14
Tenericutes Mycoplasma penetrans 61
Thermodesulfobacteria Thermodesulfatator indicus 3
Thermotogae Thermotoga neapolitana 17
Eukarya Amoebozoa Dictyostelium purpureum 32
Entamoeba invadens
Acanthamoeba castellanii
Viridiplantae Oryza sativa 235
Ricinus communis
Physcomitrella patens
Volvox carteri
Kinetoplastida Trypanosoma cruzi 57
Apicomplexa Plasmodium vivax 53
Ciliophora Paramecium tetraurelia 50
Diatoms Thalassiosira pseudonana 15
Oomycota Phytophthora infestans 11
Diplomonada Giardia lamblia 3
Animals Xenopus laevis (mit) 500
Danio rerio (mit)
Bos taurus (mit)
Homo sapiens (mit)
Ciona intestinalis (mit)
Apis mellifera
Ixodes scapularis
Trichinella spiralis
Hydra magnipapillata (mit)
Strongylocentrotus purpuratus (mit)
Saccoglossus kowalevski
Amphimedon queenslandica (mit)
Fungi Kazachstania africana 268
Aspergillus fumigatus
Chaetomium globosum
Magnaporthe oryzae
Coprinopsis cinerea
Puccinia graminis
Encephalitozoon hellem
Таблица 2. Репрезентативная выборка гомологов KAD_BACSU среди всего живого. mit - обозначение, показывающее митохондриальное происхождение некоторых белков.

Среди выбранных организмов попались, на мой взгляд, очень интересные виды. Например, представителей родов Anabaena, Microcystis и Oscillatoria мы смотрели на практикуме по альгологии, Phytophthora infestans и Puccinia graminis смотрели на практикуме по микологии. Еще меня порадовало наличие в моей выборке патогенного аспергилла (Aspergillus fumigatus), поражение которым (аспергиллез) часто путают с туберкулезом, что приводит к летальному исходу. Еще в моей выборке представлен ряд оранизмов, являющихся модельными объектами исследований, например, Escherichia coli или Danio rerio.
Ну и, конечно, замечателен масштаб этой выборки. Аденилаткиназа оказалась практически универсальным белком, ее гомолог есть даже у человека.

Множественное выравнивание гомологов белка KAD_BACSU

Последовательности всех выбранных белков были сведены в один FASTA-файл и выровняны с помощью программы MUSCLE на сервере EBI. К стандартным строкам аннотации были добавлены строки SECONDARY, LIGAND и BLOCKS.
В строке SECONDARY отображена вторичная структура изначального белка (он помещен в выравнивании самым нижнем), показаны альфа-спирали и бета-тяжи.
В строке LIGAND отмечены аминокислотные остатки, координирующие лиганды. Буквой L обозначены остатки, связывающие (бис)аденозин-пентафосфат, а Zn обозначены остатки, координирующие ионы цинка.
В строке BLOCKS буквами B обозначены участки выравнивания, похожие на блоки. В этих участках нет гэпов и наблюдается консервативность.




Рисунок 3. Верхняя картинка (она же ссылка на полноразмерное изображение) - полное изображение множественного выравнивания. Нижняя - фрагмент этого выравнивания. На обеих картинках использована окраска ClustalX.

Результаты анализа множественного выравнивания гомологов белка KAD_BACSU

Затем выравнивание было раскрашено по моей цветовой схеме, в которой оттенками красного обозначены положительно заряженные аминокислотные остатки, оттенками синего - отрицательно заряженные остатки, оттенками зеленого неполярные остатки и оттенками сиреневого - полярные незаряженные остатки. Чтобы показать консервативность я использовал функцию "By Conservation". Выравнивание с этой схемой окраски приведено на рисунке 4.


Рисунок 4. Выравнивание, окрашенное по моей цветовой схеме.

Затем на проаасcоциированной PDB-структуре были отмечены аминокислотнве остатки, координирующие пентафосфат и цинк. Что важно, окраска выравнивания была перенесена на структуру, это позволяет определить консервативность тех или иных участков белка.


Рисунок 5. PDB-структура цепи А аденилаткиназы. Остатки, связывающие аденозин-5'-пентафосфат показаны стилем wireframe 80 и подписаны, остальная часть цепи показана стилем cartoons. Сам пентафосфат показан совмещением wireframe 40 и cpk 100.

Рисунок 6. Область связывания иона цинка в цепи А. Стили использованы такие же, как на рисунке 5. Цинк обозначен синим.

Исходя из полученных визуальных данных можно попробовать произвести анализ и ответить на несколько вопросов.
Консервативность выравнивания в целом я бы оценил как "выше средней", исходя из определяемого на глаз соотношения окрашенных и неокрашенных участков при использовании функции "By Conservation". Помимо 2-3 крупных инсерций заметно множество делеций по 10-15 аминокислотных остатков, что влияет на консервативность (инсерции и делеции я "отсчитываю” относителено Bacillus subtilis).
Участки вторичной структуры в общем соответствуют консервативным участкам, но опять же из-за некоторых колонок гэпов некоторые альфа-спирали оказываются “разорванными".
Зато очень хорошо видна высочайшая консервативность большинства остатков связывающих пентафосфат. Это говорит о функциональной важности лиганда. А вот остатки, координирующие цинк, не проявляют консервативность. Это на мой взгляд связано с тем, что это простой и маленький лиганд, и его можно по-разному связать.
Также по рисунку 5 можно заметить, что консервативность проявляет в основном ядро белка.

Редакция выравнивания

Чтобы отредактировать выравнивание, я бы просто удалил из него несколько последовательностей. Это будут последовательности: Diplosphaera colitermitum, Encephalitozoon hellem, Phytophtora infestans, Puccinia graminis и Apis mellifera. Удаление этих последовательностей из FASTA-файла и последующее выравнивание с помощью MUSCLE привело к появлению нескольких очень крупных блоков и очевидной рационализации всего выравнивания. Стоит отметить, что удаленные последовательности - это восновном преполагаемые или частично изученные аденилаткиназы.


Рисунок 7. Отредактирование выравнивание в окраске ClustalX. В строке BLOCKS буквами B обозначены новые блоки.

Главная страница Первый семестр Второй семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление: 03.05.2013