Алгоритмы множественного выравнивания.Pfam

Вернуться на страницу семестра

Pазличия во множественных выравниваниях, построенных разными программами

В практикуме 12 при помощи программы BLAST и последующего множественного выравнивания были найдены 3 белка, гомологичных дигуанилатциклазе AMD46139.1 из генома бактерии Bordetella holmesii H558. В данной работе мы сравним множественные выравнивания, построенные тремя разными программами: Tcoffee, Muscle, Mafft для 4 гомологичных белков: AMD46139.1 и трёх, найденных раньше. найденных в предыдущей работе.

Рисунок 1. Выравнивание Tcoffee

Рисунок 2. Выравнивание Muscle

Рисунок 3. Выравнивание Mafft

Таблица 1. Параметры выравниваний разными программами

TcoffeeMuscleMafft
Длина выравнивания 459459466
Консервативные позиции828384
Функционально консервативные позиции151156156
Число колонок с гэпами1084646

Рисунок 4. Объединённые выравнивания (для удобства сравнения) в порядке: Tcoffee, Muscle, Mafft

На рисунке 4 приведены объединённые выравнивания по 3 программам. Блоки, ограниченные чёрной окантовкой, с бледным тексом - полностью совпадающие участки выравниваний разными программами. Со 122 позиции начинаются различия: выравнивания Tcoffee и Muscle отличаются только положением колонки с гэпами, но программа Mafft вставляет довольно большой индель, которые сместил все а. м. о. в колонках этого участка относительно друг друга, затем программа вставляет дополнительный индель в 148-153 и следующие блоки выравниваний совпадают. Казалось бы, зачем она это сделала? Из таблицы 1 можно заметить, что в Mafft 84 (наибольшее число среди программ) абсолютно консервативных позиций, именно на этом участке в 139 позиции программа и получила лишнее совпадение аланинов, которое мне кажется маловероятным. В 148-153 позиции я сместила первые 2 можественных выравнивания, чтобы далее было удобнее сравнивать. Следующий блок различия на 212-220 позициях и 256-268. Здесь можно видеть, что Muscle в 268 позиции объединил серин в группу с лейцином и треонинами, в отличие от остальных 2 программ, объединивших его с аланином и лейцинами. При этом индель в этом блоке отличия одинаковый по длине, то есть различие именно в разных группах, а не в выигрыше от гэпов. С 367 позиции и до конца довольно интересное отличие - расположение фенилаланина и лейцина последнего белка, здесь удивила программа Tcoffee, которая вставила огромный индель в конце выравнивания, расположив лейцин на самой последней позиции - очень нелогичное действие с её стороны. Таким образом, для меня лучше всего показала себя программа Muscle, которая в моём примере не показала настолько явных ошибок, как 2 другие.

Ссылка на скачивание выравнивания Tcoffee

Ссылка на скачивание выравнивания Muscle

Ссылка на скачивание выравнивания Mafft

Описание трёх доменных архитектур, содержащих один и тот же домен

Домен гельзолина на взяла из белка гельзолин человека P06396 [1], с которым я уже работала в практикуме 12.

Рисунок 5. Пример гельзолина 1KCQ

Гельзолин - белок цитоскелета, содержит три актин-связывающих участка [2]. В С-концевой половине молекулы гельзолина расположены Ca-чувствительный актин-связывающий сайт и Ca-связывающий участок молекулы. Два других актин-связывающих участка расположены на N-конце молекулы. На рисунке 6 приведена доменная архитектура этого белка.

Рисунок 6. Доменная архитектура гельзолина GELS_HUMAN (P06396)[3]

Из рисунка мы можем видеть, что в рассматриваемом белке встречаются только повторяющиеся домены гельзолина. Архитектура - Gelsolin x 6.
Описание домена гельзолина с сайта Pfam:Для подвижных клеток (например, Amoeba) для движения необходима быстрая рециркуляция актина цитоскелета, чтобы позволить динамическое изменение их формы. Gelsolin (PFAM: PF00626) и Cofilin (PFAM: PF00241) являются двумя ключевыми доменами в этом процессе. Обе области с этими доменами являются структурными и функциональными. В частности, бета-лист, находящийся в ядре домена, структурно хорошо сохраняется, причем спирали, которые окружают этот лист, менее консервативны [4].

Перейдя на страницу домена гельзолина в Pfam, мы можем увидеть распростарнённые архитектуры в порядке убывания количества соответствущих данной архитектуре белков. Оценить разнообразие архитектур можно на рис. 7. Далее мы рассмотрим 3 из них.

Рисунок 7. 50 самых распространённых архитектур, содержащих гельзолин (из 129) [5].

Доменная архитектура 1: zf-Sec23_Sec24, Sec23_trunk, Sec23_BS, Sec23_helical, Gelsolin

Первым рассмотрим самую распространённую архитектуру, которой соответствуют 2242 белка из базы данных.

Рисунок 8. Доменная архитектура 1: A0A010QQV8_9PEZI (A0A010QQV8)[6]


Рассматриваемый белок принадлежит аскомицету Colletotrichum fioriniae PJ7, но она встречается и среди растений, и среди животных. Sec23 / Sec24
1 домен (отмечен зелёным) это Sec23/Sec24 цинковый палец. Это домен связывания цинка. COPII-покрытые везикулы переносят белки из эндоплазматического ретикулума в комплекс Гольджи. Этот везикулярный транспорт может быть воссоздан с использованием трех цитозольных компонентов, содержащих пять белков: малую GTPase Sar1p, комплекс Sec23p/24p и комплекс Sec13p/Sec31p.
2 домен это Sec23/Sec24 туловищный (trunk) домен. Этот домен известен как магистральный домен, имеет альфа и бета вторичные структуры и формирует интерфейс димера.
3 домен это Sec23/Sec24 бета-сэндвич домен, который характеризуется двумя противоположными антипараллельными бета-листами.

Рисунок 9. Типичный бета-сэндвич (из белка 1TEN)


4 домен это Sec23/Sec24 спиральный (helical) домен. Этот домен состоит из пяти альфа-спиралей, типичный для описанных выше комплексов Sec23/Sec24.
5 домен это гельзолин, описание которого приведено выше в работе.

Доменная архитектура 2: LRR_8 x 4, Gelsolin x 4

Распространённую архитектуру, которой соответствуют далеко не так много белков, как первой - 23.

Рисунок 9. Доменная архитектура 2: G0MG99_CAEBE (G0MG99)[7]


Рассматриваемый белок принадлежит нематоде Caenorhabditis brenneri.
1-4 домены это богатые лейцином повторы (LRR). Это белковые структурные мотивы, который образуют подковообразную складку альфа/бета. Они состоят из повторяющихся 20-30 аминокислотных остатков, которые необычно богаты гидрофобным аминокислотным лейцином. Эти повторы обычно сворачиваются вместе, образуя соленоидный белковый домен, называемый leucine-rich repeat (LRR). Как правило, каждый повторяющийся блок имеет бета-прямую-поворотную-альфа-спиральную структуру, а собранный домен, состоящий из множества таких повторов, имеет форму подковы с внутренним параллельным бета-листом и внешним массивом спиралей.

Рисунок 10. Примеры структур LRR


5-8 домены это гельзолин.

Доменная архитектура 3: DUF1899, WD40, WD40_4, PH, Gelsolin x 4, VHP

Данной архитектуре соответствует только 4 белка.

Рисунок 10. Доменная архитектура 3: D3BH98_POLPA (D3BH98)[8]


Рассматриваемый белок принадлежит представителю таксона Amoebozoa Polysphondylium pallidum, это виллин (сравнение гельзолина и виллина происходило в практикуме 12.
1 домен неизвестной функции, несмотря на то, что домен встречаетмя в 1635 белках.
2 домен это WD, G-бета повтор. Повтор WD40 (также известный как WD или бета-трансдуиновый повтор) представляет собой короткий структурный мотив приблизительно из 40 аминокислот, часто заканчивающийся дипептидом триптофана-аспарагиновой кислоты (W-D). Тандемные копии этих повторов обычно складываются вместе, образуя тип кольцевого соленоидного белкового домена, называемого доменом WD40.

Рисунок 11. Пример структуры W40 домена


3 домен это один из типов WD-повтор домена.
4 домен это плекстрин-гомологичный (Pleckstrin homology) домен. Это белковый домен примерно из 120 аминокислот, который встречается в широком диапазоне белков, участвующих во внутриклеточной передаче сигналов, или в составе цитоскелета.

Рисунок 11. Пример структуры PH-домена


5-8 домены это гельзолин.
9 домен это домен N-конца (headpiece) виллина.





© Миронова Екатерина 2017 год