Практикум 12

Сравнение выравниваний от разных программ

Я сравнивала программы множественного выравнивания MAFFT и Clustal Omega, выравивая с их помощью последовательности из seed-выравнивания семйства ABC_membrane (PF00664). Это семейство белков, содержащих в себе трансмембранный домен ABC-транспортеров, АТФ-зависимых ин- и экспортеров различных субстратов.
Результаты выравниваний можно увидеть в проектах JalView по ссылкам:

После я использовала программу Лизы Плешко, чтобы понять, насколько эти выравнивания одинаковы. Программа нашла 89 полностью одинаковых столбцов, что составляет 23,8% от количества столбцов в выравнивании MAFFT и 22,2% в выравнивании Clustal Omega. Реузльтат выдачи программы можно увидеть в файле. Почему-то Лизина программа неверно посчитала процентное содержание верно выровненных столбцов (оно в 100 раз меньше, чем должно быть).

Сравнение выравнивания по структуре и MSA

Я решила выровнять три белковых последоватлеьности с PDB ID 6TEJ, 6D3R и 3ZDQ, это белки Mycolicibacterium thermoresistibile, курицы и человека соответственно. Я выровняла попарно 6TEJ и 6D3R и 6TEJ и 3ZDQ, используя веб-сервис Pairwise Structure Alignment в PDB (выравнивание для 6TEJ и 6D3R и выравнивание для 6TEJ и 3ZDQ). Те же последовательности я выровняла при помощи Clustal Omega и "достала" из множественного выравнивания парные (выравнивание для 6TEJ и 6D3R и выравнивание для 6TEJ и 3ZDQ). При помощи Лизиной программы я сравнила эти выравнивания. Они одинаковы на 0% и 53%. Почему эти результаты так отличаются, я не поняла, но "глазами" тоже не нашла одинаковых столбцов в вырваниваниях 6TEJ и 6D3R.

Описание программы Clustal Omega

Как и другие программы множественного прогрессивного выравнивания, Clustal Omega действует по следующему алгоритму:

  1. Строится направляющее дерево белковых последовательностей;
  2. Строится выравнивание "от листев в корню" направляющего дерева, т.е. к выравиниваниям наиболее близких последовательностей добавляются все более и более далекие.

Clustal Omega отличает то, что она использует другой метод построения дерева. Если обычно для построения направляющего дерева рассчитываются дистанции между всеми возможными парами последовательностей (N2 пар при выравнивании N последовательностей), то Clustal Omega выбирает случайные log2(N) последовательностей (seed) и считает расстояние от всех последовательностей до всех последовательностей этой выборки (N*log2(N) пар). Затем каждой из N последовательностей ставится в соответствие вектор в пространстве размерности log2(N), где по каждой оси отложено расстояние между выбранной последовательностью и одной последовательностью из seed.
Далее по координатам получившихся векторов рассчитывается евклидовы расстояния между всеми N2 парами последовательностей. Расчет расстояния между векторами требует сильно меньше вычислений, чем расчет расстояния между последовательностями белков, и описанные действия позволяют сократить расчет попарных расстояний между последовательностями (Blackshields et al., 2010).
При помощи полученной матрицы евклидовых расстояний строится направляющее дерево.
После этого по направляющему дереву строится выравнивание. По полученному выравниванию заново рассчитываются попарные расстояния между последовательностями и строится дерево. Так повторяется несколько раз, чтобы можно было получить более точное дерево и более хорошее выравнивание (Sievers & Higgins, 2021).

Список литературы

  1. Sievers F, Higgins DG. The Clustal Omega Multiple Alignment Package. Methods Mol Biol. 2021;2231:3-16. doi: 10.1007/978-1-0716-1036-7_1. PMID: 33289883.
  2. Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG. Sequence embedding for fast construction of guide trees for multiple sequence alignment. Algorithms Mol Biol. 2010 May 14;5:21. doi: 10.1186/1748-7188-5-21. PMID: 20470396; PMCID: PMC2893182.