Multiple alignment

Некоторая нужная информация для иследований:

Составление репрезентативной выборки гомологов белка PDAA_BACSU с помощью BLAST

Для выборки определяем филум для Bacillus subtilis - организма, который содержит PDAA_BACSU (мой белок). Им является Firmicutes. Осуществляем поиск BLAST, в качестве исходной последовательности используя PDAA_BACSU. Для поиска по прокариотам: изменяем стоящие по умолчанию параметры: изменяем максимальное количество хитов с 100 на 1000. При поиске в поле organism вводим найденный филум, ставим галочку напротив "Exclude" (запрещаем BLAST выдавать сходные белки из того же филума), добавляем еще поле organism и им исключаем эукариот, порог e-value поставим 1, в качестве базы данных используем RefSeq (достаточно крупная и с полными геномами). Пробуем. У последнего результата e-value оказался равным 3e-14 - список обрывается на приличном e-value и хороших выравниваниях следовательно изменяем максимальное количество хитов на 5000. Пробуем. Самый последний результат имеет e-value 0.004, изменяем количество хитов на 10000. Опять пробуем. Последний с e-value=1 - хорошо, мы получили тот результат, который хотели максимальным. Пробуем получить Дерево с индификаторами последовательностей, для этого нажимаем в секции "Описание" все последовательности и получаем о них выдачу GenBank. Он выдает ошибку, видимо, слишком много последовательностей. Да. Их 3280. Многовато. Сокращаем поиск до e-value равного 6e-17, начиная от этой величины идут более хорошие выравнивания и их существенно меньше (700). Получаем древо жизни (рис. 1). Для поиска по эукариотам: в поле organism вводим Eukaryota и не ставим галочку напротив Exclude, выбираем порог e-value равный 0.01 и максимальное количество хитов 1000. Получаем 329 результатов. Смотрим на древо жизни (рис. 2). Таблицу 1 с финальными параметрами BLAST и филогенетические деревья можно увидеть ниже (рис. 1 и 2). Если хотите можете так же посмотреть другие филогенетические деревья, полученные с помощью GenPept для прокариот и эукариот из которых впоследствии выбирались организмы. Для этого нажмите на соответсвующую империю.

Вы можете посмотреть таблицу 1, описывающую финальные параметры BLAST, использованные для поиска:

Поиск Алгоритм BLAST Название базы данных Ограничения по таксонам Порог e-value Количество найденных гомологов и максимальное поличество хитов
По прокариотам BlastP RefSeq Exclude Firmicutes + Exclude Eukaryota 6e-17 700 и 1000
По эукариотам BlastP RefSeq Eukaryota 0.01 329 и 1000

Пройдя по этой ссылке вы можете получить ссылки на выдачи BLAST по 1)про- и 2)эукариотам.

Филогенетические деревья белка PDAA_BACSU для Prokaryota и Eukaryota

Рис. 1. Филогенетическое дерево белка PDAA_BACSU для Prokaryota
Рис. 2. Филогенетическое дерево белка PDAA_BACSU для Eukaryota

Построение множественного выравнивания (см. далее) основывается на последовательностях голомогичных белку PDAA_BACSU (табл. 2).

Домен Филум/Царство/другой таксономический ранг Название организма/ов Количество белков выбрано
Archaea Methanosarcina [Methanosarcina barkeri str. Fusaro], [Methanosarcina acetivorans C2A] 2
Bacteria Actinobacteria Streptomycetaceae [Streptomyces coelicolor A3(2)], [Streptomyces clavuligerus ATCC 27064] 2 (т.к. большая группа)
Bifidobacteriales [Bifidobacterium animalis subsp. lactis HN019] 1
Coriobacteriales [Slackia piriformis YIT 12062] 1
Solirubrobacterales [Conexibacter woesei DSM 14684] 1
Acidimicrobiales [Ilumatobacter coccineum YM16-304] 1
Proteobacteria a-proteobacteria [Mesorhizobium metallidurans STM 2683] 1
g-proteobacteria [Pseudoalteromonas sp. SM9913] 1
d-proteobacteria [Desulfovibrio vulgaris DP4] 1
Cyanobacteria Nostocales [Nostoc sp. PCC 7524] (был на практике по альгологии) 1
Oscillatoriales [Oscillatoria acuminata PCC 6304] 1
Chroococcales [Cyanothece sp. PCC 7822] 1
Pleurocapsales [Pleurocapsa sp. PCC 7327] 1
Stigonematales [Fischerella sp. JSC-11] 1
CFB group bacteria Flavobacteriales [Flavobacterium indicum GPTSA100-9] 1
Bacteroidales [Bacteroides oleiciplenus YIT 12058] 1
Cytophagales [Cytophaga hutchinsonii ATCC 33406] 1
Sphingobacteriales [Solitalea canadensis DSM 3403] 1
GNS bacteria [Ktedonobacter racemifer DSM 44963] 1
Deinococcales [Deinococcus gobiensis I-0] 1
Acidobacteriales [Granulicella tundricola MP5ACTX9] 1
Verrucomicrobia [Verrucomicrobium spinosum DSM 4136] 1
Thermales [Thermus scotoductus SA-01] 1
Spirochetes [Spirochaeta caldaria DSM 7334] 1
Candidatus Koribacter [Candidatus Koribacter versatilis Ellin345] 1
Haloplasmatales [Haloplasma contractile SSD-17B] 1
Firmicutes [Bacillus subtilis strain 168] 1
Eukaryotes Fungi Ascomycetes [Saccharomyces cerevisiae S288c] (практикa по микологии) 1
Basidiomycetes [Schizophyllum commune H4-8] 1
Entamoeba [Entamoeba invadens IP1] 1
Green plants Selaginellales [Selaginella moellendorffii] 1
oomycetes [Phytophthora infestans T30-4] 1
Animals Amphibia [Xenopus (Silurana) tropicalis] 1
Trichomonads [Trichomonas vaginalis G3] 1
Acanthamoeba [Acanthamoeba castellanii str. Neff] 1
Таблица 2. Встречаемость белков, гомологичных PDAA_BACSU, в различных таксонах про- и эукариот. Фиолетовым обозначен сам белок PDAA_BACSU.

Судя по записям в поле "COMMENT" при переходе по ссылке "DBSOURCE" у разных царств эукариот нет нет указаний о том, что этот белок принадлежит митохондрии или хлоропласту, он ядерный а значит это позволяет нам предположить, что это исходно эукариотический белок.



Множественное выравнивание гомологов белка PDAA_BACSU и мои наблюдения

Для множественного выравнивания используются белки из организмов, названия организмов приведенные в таблице 2. Среди них есть белок PDAA_BACSU, с которым мы выравниванием его белки-гомологи: среди прокариотических взато 2 из архебактерий и 26 из бактерий (всего выходит 28) и среди эукариотических белков 8 (при клике можно посмотреть конкретные последовательности в fasta-формате). Выравнивание осуществляется с помощью программы Muscle EBI (Европейского Биоинформатического Института), его можно увидеть на рисунке 3.

У выравнивания есть строки анотации. Они находятся под ним; в них можно узнать различную информацию о выравнивание:

Рис. 3. Множественное выравнивание белка PDAA_BACSU с гомолагами из разных групп огранизмов. Первые 2 последовательности принадлежат Archaea, следующие 26 - Bacteria, а последние 8 - Eukaryotes. На первом изображении можно увидеть полное выравнивание с выставленным процентом консервативности по окраски равным 30%, а на втором изображении - наиболее хороший участок выравнивания с двумя аминокислотами из двух, которые учавствуют в связывание ионов кадмия, а процент консервативности здесь выставлен меньшим и он равен 17%.
Интересные факты:
  1. Довольно консервативными участками в этом выравнивании остались в основном бета-тяжи (в разделе BLOCKS можно это наблюдать).
  2. Часто встречается такая замена аминокислот Val-I-L - что довольно логично, но все равно интересно.

На первый взгляд выравнивание выглядит не очень хорошо: есть большое число пропусков. Из выравнивания выделяются последовательности: [Selaginella moellendorffii] и [Haloplasma contractile SSD-17B]. Их можно попробывать убрать, чтобы выравнивание стало лучше. Убираю. Выравнивание осталось тем же. Хорошо, значит эти две последовательности не влияют на качество выравнивания.

Результаты анализа множественного выравнивания гомологов белка PDAA_BACSU

С помощью JMol были получены изображения структуры белка с разноцветными консервативными участками выравнивания. На этих изображениях хорошо видно, что консервативными участками являются бета-листы, расположеннные рядом с одним из лигандов и структуры пространственно рядом, которые образую архитектуру моего белка, образуя своеобразный "бублик". На рисунках 4-7 мы можете все это увидеть (при клике они открываются в оригинальном масштабе). Так же на них наглядно показано, что консервативным оказывается и гистидин 124 и 128 (в меньшей степени), которые непосредственно связывают ион кадмия (лиганд), можно посмотреть некотурую информацию о лиганде здесь.

Рис. 4-7. Изображен белок с раскрашеными консервативными участками выравнивания, на рисунках обозначены аминокислоты расположенные рядом с лигандом (ион кадмия). На первом и втором рисунке хорошо видно общую структуру цепи (на заднем плане изображен серым кусочек второй цепи - она идентична 1 (они у меня так и называются: 1 и 2, см. здесь)). А на третьем и четвертом - приближенное изображение.

Вопросы и ответы:

  1. Как бы вы оценили консервативность выравнивания в целом? Оно довольно консервативно в отдельных участках, особенно в участках, которые образуют выемку в цепи белка.
  2. Как соотносятся участки консервативности в вашем белке и элементы вторичной структуры? Почему? Насколько соответствуют участкам вторичной структуры выделенные вами "блоки"? Участки консервативности, как было сказано ранее, чаще всего приходятся на участки, в которых находятся бета-листы, видимо потому, что они формируют центральный участок цепи белка, который в свою очередь формирует всю архитектуру белка. Консервативность наблюдается рядом с лигандом (рис. 3). Сами блоки выбирались мной не только с абсолютно идентичными аминокислотами, но и те, что имели не большое число отклонений от преобладающей кислоты.
  3. В каких участках белка выравнивание самое плохое (то есть отсутствующее, по сути)? Почему? Выравнивание наиболее плохими оказывается на концах последовательности из-за различной в длине белов (размер моего белка 264 а.о., а самого большого эукариотического белка 1155 (выделенный на большой картинке)), так же плохими оказываются участки с большим количеством гэпов - это выходит из-за того, что, видимо, в некоторые последовательности были вставлены длинные последовательности и это заставило программу Muscle вставлять гэпы.
  4. Больше или меньше "колонок-гэпов" (то есть колонок, в которых стоит знак гэпа у всех последовательностей кроме пары-тройки) приходится на элементы вторичной структуры по сравнению с другими участками белка? Много гэпов. Опять же из-за того, что длины белков довольно сильно отличаются. Но все-таки меньше "колонок-гэпов" приходится на элементы вторичной структуры.


Источники информации


© Tishina Sofia, 2012