Практикум 12: алгоритмы и программы множественного выравнивания

2. Сравнение выравниваний, полученных с помощью разных программ.

Для сравнения выравнивания одних и тех же последовательностей разными программами были выбраны алгоритмы MSAProbs (А), MAFFT (B), ClustalW (С), поскольку они есть в Jalview. Также были взяты последовательности интерферон-индуцируемых трансмембранных белков человека (IFM1_HUMAN, IFM3_HUMAN, IFM5_HUMAN) и мыши (IFM1_MOUSE, IFM5_MOUSE), тк за счет короткой длины их выравнивание удобно анализировать визуально.

Программы были запущены с базовыми праметрами. Проект Jalview. С помощью сервиса VerAlign были найдены совпадающие блоки.

MSAProbs + MAFFT

данная пара выравниваний имеет всего один длинный совпадающий блок (59,129), длина блока 71 амк. ост. Пример несовпадающего блока: (56,58) и (55,58), на данных участках выравнивания имеют различия, поскольку выравнивание MAFFT содержит гэпы.

MSAProbs + ClustalW

данная пара выравниваний имеет один длинный совпадающий блок (59,129)=(57,127), длина блока 71 амк. ост., и один короткий (36,38)=(35,37), длина блока 3 амк. ост. Пример несовпадающего блока (между двумя совпадающими): (39,58) и (38, 56).

Визуально (по распределению гэпов на концах выравниваний и в начале), а также по параметрам SP (доля одинаково выровненных пар в тестовом выравнивании относительно референса), CP (доля одинаково выровненных позиций) и avg_SPdist (информация о расстоянии между парами невыровненных остатков) вторая пара выравниваний имеет больше сходства. Различия в выравниваниях объясняются тем, что программы работают по разным алгоритмам и по-разному разрешают спорные участки.

3. Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA.

Для выполнения задания было выбрано семейство доменов Bacteriocin_IIi (Pfam AC: PF11758). Выравнивались белки: PDB_ID: 8AVR, PDB_ID: 6SIG и PDB_ID: 7P5R.

С помощью сервиса Pairwise Structure Alignment на сайте PDB было получено пространственное выравнивание методом TM-align (референс 8AVR), которое затем было преобразовано в текстовом редакторе согласно подсказкам и добавлено в проект Jalview. Те же последовательности были выравнены алгоритмом Muscle. Проект Jalview.

Данные выравнивания совпадают со 2 по 34 позицию при общей длине последовательностей 51-53 амк. ост. Различия обусловлены гэпами, возникшими при ручной корректировке пространственного выравнивания. Пространственное и програмное выр-е различаются по длине: 57 и 53 амк. ост. соответсвенно. В програмном меньше гэпов, поскольку реализуется прогрессивное выравнивание.

Обилие гэпов является результатом пространственного совмещения структур, для которого характерно, что (1) на концевых участках амк. ост. не будут выровнены за счет различной предсказанной степени поворота конца спирали (положение 1 и с 51, рис. 1), (2) невыровненными останутся амк. ост. на границе перехода спирали в петлю или изгиб (положения 36-40, рис. 2). Причем, белок состоит из 4 спиралей, но сложным для выравнивания является только один участок (другие: 10-13, 23-26).

В целом, и пространственное выравнивание, и выравнивание последовательностей практически одинаковы с точки зрения выявления гомологичных участков.

Рис. 1. Концевые участки пространственного выравнивания. 8AVR оранжевый, 6SIG голубой, 7P5R зеленый.
Рис. 2. Переходный между двумя спиралями участок 36-40. 8AVR оранжевый, 6SIG голубой, 7P5R зеленый.

4. Описание команды Clustal

ClustalWS (Clustal W and Clustal Omega) — это семейство программ, предназначенных для многократного выравнивания последовательностей (Multiple Sequence Alignment, MSA). Происхождение и разработка: Clustal W была впервые представлена в 1994 году. Название "Clustal W" обозначает "Clustal Weighted," что отражает основной метод взвешивания последовательностей в процессе выравнивания. Clustal Omega — это более новая версия, выпущенная в 2011 году, предназначена для работы с большим количеством последовательностей, улучшая производительность и точность по сравнению с Clustal W. Как работает ClustalWS: Программа работает, применяя пошаговый алгоритм выравнивания. (1) Вычисляется сходство между каждой парой последовательностей, обычно с помощью таких методов, как метод Нидлмана-Вунша или метод Смита-Ватермана. (2) На основе матрицы расстояний строится дерево, представляющее эволюционные связи между последовательностями. (3) Последовательности выравниваются в соответствии с деревом, начиная с наиболее близких пар и постепенно добавляя более далекие последовательности. ClustalWS позволяет исследователям анализировать последовательности на генетическом уровне, выявляя общие мотивы, функциональные области и эволюционные изменения. Программа широко используется в молекулярной биологии, геномике и биоинформатике.

Clustal (Электронный ресурс): Wikipedia.

Higgins, D. G., & Sharp, P. M. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene, 73(1), 237–244. doi:10.1016/0378-1119(88)90330-7