Алгоритмы множественного выравнивания

1. Различия во множественных выравниваниях

Первое задание состоит в сравнении множественных выравниванй, построенных разными программами (T-Coffee и Muscle). Раскраска ClustalX (Identity 100%). Для примера я решила вязть пять белков, гомологичность которых я проверила в предыдущем практикуме [1]. А именно:

ID Name Coverage (%) Identity (%) E-value Homology(+/-)
WP_002258782.1 pilin family protein 93% 97% 3e-56 +
WP_061734064.1 pilus assembly protein PilS 98% 82% 6e-52 +
WP_061818162.1 pilin 97% 77% 7e-48 +
WP_002225897.1 fimbrial protein MS11-D1 precursor 98% 77% 6e-47 +
WP_079758344.1 fimbrial protein P9-2 precursor 98% 75% 4e-45 +


Рис.1 Выравнивание при помощи T-coffee


Рис.2 Выравнивание при помощи Muscle

Различия в выравниваниях в двух разных программах выделены на рис. 1 и 2 черными прямоугольниками.Во-первых, интересно, что между 70 и 80 позициями есть две абсолютно консервативных колонки: R и A, и в выранивании T-coffee между ними есть еще 4 колонки и почти во всех строчках есть гэп, тогда как в выранивании Muscle между консервативными аминокислотами - 3 колонки, есть только один индель в одной из последовательностей. Во-вторых, В позиции с 89 по 91 четвёртой последовательности:в T-coffe в этих позициях гэп, а в Muscle - TGN. В-третьих, после консевативного блока в районе 100й позиции в T-coffe есть гэп, а в Muscle его нет. Длина выравнивания в обоих случаях совпадает.
В целом можно отметить, сравнение двух выравниваний в разных программах в какой-то cтепени отражает и биологический смысл: мы видим, что "показания" программ в случе консервативных блоков сходятся, что указывает на высокую вероятность гомологии этих участков. Области между блоками несколько отличаются, поэтому точно предсказать эволюционные события с помощью алгоритма в этом случае довольно сложно. Три описанных отличия просто отражают то, что разные алгоритмы могут по-разному интепритировать различия в гомологичных последовательностях. Для уточнения таких неясных моментов, необходимо проверять выравнивание вручную. Здесь, как мне кажется, сравнение выравниваний в нескольких разных программах может оказаться очень полезным.

2. Доменные архитектуры
Необходимо описать 3 доменных архитектуры, содержащих один и тот же домен. Для выполнения практикума я взяла белок пилин (ANW70673.1) [2] организма Neisseria meningitidis [3]. С помощью ресурса Pfam [4] я нашла 13 архитектур своего белка.
Рассмотрим три архитектуры из найденых:

1. Самая простая и растространенная

Наиболее частая доменная архитектура (636 последовательнстей). Сотстоит из двух доменов: 1) N-methyl - прокариотический N-концевой метилирующий мотив. Этот короткий мотив работатет с фенилаланином и чаще всего предшествует пилину и некоторым похожим на него белкам. 2) Всё верно, слудующий домен - Pilin :). Пилин - белок, из которого состоят бактериальные структуры пили, которые участвуют в обмене генетическим материалом между бактериями (коньюгация). Пилин обладает рядом функий, так, у "моего" организма - Neisseria meningitides, трансформация требует присутствия коротких DNA uptake sequences (DUSs), которые узнаются пилином 4го типа, ComP.
2. Дупликация

Длина - 252 аминокислоты, нашлось 4 последовательности, соответстующие такой доменной архитектуре. Эта доменная архитектура включает два домена пилина, идущих подряд. Возможно, её эволюционное "развитие" включало событие дупликации.
3. Домен, не похожий по функции

Длина - 402 аминокислоты, нашлось 7 последовательностей, соответстующие такой доменной архитектуре. Помимо в этой архитектуре пилику предшествует пептидаза М48 (не совсем понимаю, это просто совпаделие, или расположение пептидазы рядом с доменом пилина имеет какой-то биологический смысл).
Модель пилина:

Источники:
1. Практикум 12
2. Краткая информация о белке
3. Краткая информация о прокариоте
4. Pfam

Назад