Для сравнения выравнивания одних и тех же последовательностей разными программами были выбраны алгоритмы MSAProbs (А), MAFFT (B), ClustalW (С), поскольку они есть в Jalview. Также были взяты последовательности интерферон-индуцируемых трансмембранных белков человека (IFM1_HUMAN, IFM3_HUMAN, IFM5_HUMAN) и мыши (IFM1_MOUSE, IFM5_MOUSE), тк за счет короткой длины их выравнивание удобно анализировать визуально.
Программы были запущены с базовыми праметрами. Проект Jalview. С помощью сервиса VerAlign были найдены совпадающие блоки.
MSAProbs + MAFFT
MSAProbs + ClustalW
Визуально (по распределению гэпов на концах выравниваний и в начале), а также по параметрам SP (доля одинаково выровненных пар в тестовом выравнивании относительно референса), CP (доля одинаково выровненных позиций) и avg_SPdist (информация о расстоянии между парами невыровненных остатков) вторая пара выравниваний имеет больше сходства. Различия в выравниваниях объясняются тем, что программы работают по разным алгоритмам и по-разному разрешают спорные участки.
Для выполнения задания было выбрано семейство доменов Bacteriocin_IIi (Pfam AC: PF11758). Выравнивались белки: PDB_ID: 8AVR, PDB_ID: 6SIG и PDB_ID: 7P5R.
С помощью сервиса Pairwise Structure Alignment на сайте PDB было получено пространственное
выравнивание методом TM-align (референс 8AVR), которое затем было преобразовано в текстовом
редакторе согласно подсказкам и добавлено в проект Jalview. Те же последовательности были выравнены алгоритмом
Muscle. Проект Jalview.
Данные выравнивания совпадают со 2 по 34 позицию при общей длине последовательностей 51-53 амк. ост.
Различия обусловлены гэпами, возникшими при ручной корректировке пространственного выравнивания.
Пространственное и програмное выр-е различаются по длине: 57 и 53 амк. ост. соответсвенно.
В програмном меньше гэпов, поскольку реализуется прогрессивное выравнивание.
Обилие гэпов является результатом пространственного совмещения структур, для которого характерно, что (1)
на концевых участках амк. ост. не будут выровнены за счет различной предсказанной степени поворота конца спирали
(положение 1 и с 51, рис. 1), (2) невыровненными останутся амк. ост. на границе перехода спирали в петлю или изгиб
(положения 36-40, рис. 2). Причем, белок состоит из 4 спиралей, но сложным для выравнивания является только
один участок (другие: 10-13, 23-26). В целом, и пространственное выравнивание, и выравнивание последовательностей практически одинаковы с точки
зрения выявления гомологичных участков. ClustalWS (Clustal W and Clustal Omega) — это семейство программ, предназначенных для многократного выравнивания последовательностей (Multiple Sequence Alignment, MSA).
Происхождение и разработка:
Clustal W была впервые представлена в 1994 году. Название "Clustal W" обозначает "Clustal Weighted," что отражает основной метод взвешивания последовательностей в процессе выравнивания. Clustal Omega — это более новая версия, выпущенная в 2011 году, предназначена для работы с большим количеством последовательностей, улучшая производительность и точность по сравнению с Clustal W.
Как работает ClustalWS:
Программа работает, применяя пошаговый алгоритм выравнивания. (1) Вычисляется сходство между каждой парой последовательностей, обычно с помощью таких методов, как метод Нидлмана-Вунша или метод Смита-Ватермана.
(2) На основе матрицы расстояний строится дерево, представляющее эволюционные связи между последовательностями. (3) Последовательности выравниваются в соответствии с деревом, начиная с наиболее близких пар и постепенно добавляя более далекие последовательности.
ClustalWS позволяет исследователям анализировать последовательности на генетическом уровне, выявляя общие мотивы, функциональные области и эволюционные изменения. Программа широко используется в молекулярной биологии, геномике и биоинформатике.4. Описание команды Clustal