Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов

1 задание

Для задания 2 был использован код, написанный Вячеславом Масленниковым, с его одобрения

src

2 задание

2.1

В данном случае берется множественное выравнивание пяти белков из практикума 9: NADA_ASPFU, NADA_PYRHO, NADA_THERO, NADO_ASPPU, NADO_THEMA

TCOFFEE~MUSCLE
Число последовательностей: 7
Длина первого выравнивания: 610
Длина второго выравнивания: 468
Процент совпадающих колонок в первом выравнивании: 8.52 %
Процент совпадающих колонок во втором выравнивании:: 11.11 %
Число совпадающих блоков: 7
('71-74', '51-54', 4)('127-128', '110-111', 2)('266-270', '171-175', 5)('273-275', '178-180', 3) ('279-293', '184-198', 15) ('470-475', '334-339', 6) ('522-536', '386-400', 15)

TCOFFEE~MAFFT
Число последовательностей: 7
Длина первого выравнивания: 610
Длина второго выравнивания: 562
Процент совпадающих колонок в первом выравнивании: 12.46 %
Процент совпадающих колонок во втором выравнивании:: 13.52 %
Число совпадающих блоков: 11
('28-35', '25-32', 8) ('71-93', '48-70', 23) ('147-154', '126-133', 8) ('177-179', '156-158', 3) ('244-246', '231-233', 3) ('248-250', '235-237', 3) ('254-257', '241-244', 4) ('378-384', '290-296', 7) ('400-401', '312-313', 2) ('533-536', '499-502', 4) ('565-568', '528-531', 4)
Mafft alignment
Muscle alignment
Tcoffee alignment
Jalview project

2.2

Далее было решено также проверить программу, используя результат программы BLAST для Шикимат-дегидрогеназы(Shikimate dehydrogenase (NADP(+))), A0A832T1A5_9EURY, множественно выравненный, использовавшийся при выполнении практикума 10

Tcoffee2.pfam~Mafft2.pfam
Число последовательностей: 7
Длина первого выравнивания: 946
Длина второго выравнивания: 946
Процент совпадающих колонок в первом выравнивании: 93.02 %
Процент совпадающих колонок во втором выравнивании:: 93.02 %
Число совпадающих блоков: 9
('1-55', '1-55', 55)('66-68', '66-68', 3)('79-85', '79-85', 7)('96-197', '96-197', 102)('204-206', '204-206', 3)('213-215', '213-215', 3)('223-232', '223-232', 10) ('236-476', '236-476', 241)('495-946', '495-946', 452)

Mafft2.pfam~Muscle2.pfam
Число последовательностей: 7
Длина первого выравнивания: 946
Длина второго выравнивания: 946
Процент совпадающих колонок в первом выравнивании: 96.51 %
Процент совпадающих колонок во втором выравнивании:: 96.51 %
Число совпадающих блоков: 9
('1-58', '1-58', 58)('62-68', '62-68', 7)('75-76', '75-76', 2)('79-85', '79-85', 7)('93-94', '93-94', 2)('96-197', '96-197', 102) ('203-206', '203-206', 4)('211-215', '211-215', 5)('221-946', '221-946', 726)
Tcoffee2.pfam~Muscle2.pfam
Число последовательностей: 7
Длина первого выравнивания: 946
Длина второго выравнивания: 946
Процент совпадающих колонок в первом выравнивании: 94.29 %
Процент совпадающих колонок во втором выравнивании:: 94.29 %
Число совпадающих блоков: 10
('1-55', '1-55', 55) ('66-70', '66-70', 5) ('76-87', '76-87', 12) ('95-197', '95-197', 103) ('200-201', '200-201', 2) ('204-207', '204-207', 4) ('213-219', '213-219', 7) ('223-232', '223-232', 10) ('236-476', '236-476', 241) ('495-946', '495-946', 452)
Mafft alignment
Muscle alignment
Tcoffee alignment
Jalview project

2.3

Здесь было решено использовать данное выравнивание из одной из последних классных работ, белков ABX76752.1 и 28 других

Tcoffee3.pfam~Mafft3.pfam
Число последовательностей: 29
Длина первого выравнивания: 114
Длина второго выравнивания: 113
Процент совпадающих колонок в первом выравнивании: 67.54 %
Процент совпадающих колонок во втором выравнивании:: 68.14 %
Число совпадающих блоков: 4
('1-13', '1-13', 13) ('25-29', '24-28', 5) ('42-78', '41-77', 37) ('82-103', '81-102', 22)

Mafft3.pfam~Muscle3.pfam
Число последовательностей: 29
Длина первого выравнивания: 113
Длина второго выравнивания: 109
Процент совпадающих колонок в первом выравнивании: 50.44 %
Процент совпадающих колонок во втором выравнивании:: 52.29 %
Число совпадающих блоков: 3
('1-9', '1-9', 9) ('41-77', '37-73', 37) ('81-90', '77-86', 10)

Tcoffee3.pfam~Muscle3.pfam
Число последовательностей: 29
Длина первого выравнивания: 114
Длина второго выравнивания: 109
Процент совпадающих колонок в первом выравнивании: 51.75 %
Процент совпадающих колонок во втором выравнивании:: 54.13 %
Число совпадающих блоков: 3
('1-9', '1-9', 9) ('41-78', '36-73', 38) ('81-91', '76-86', 11)
Mafft alignment
Muscle alignment
Tcoffee alignment
Jalview project

Выводы

Сравнив результаты можно предположить, что программа Tcoffee наиболее точно выравнивает последовательности белков, с большим процентом сходства, в других же случаях Muscle и Mafft могут быть более эффективными, что можно заметить из выдачи программы в пункте 1. Mafft же эффективен в обоих случаях, мы это можем предположить из процента совпадающих колонок, так как если брать выравнивание Tcoffee как эталонное, и в некоторых случаях Mafft эффективнее, а в некоторых случаях Muscle дает более приближенный к эталонному результат, что можно видеть из выдачи программы в разных приведенных выше случаях.

Задание 3

PF00002 7 transmembrane receptor (Secretin family) - семейство, белки которого были выбраны для анализа

Рисунок 1Белки для анализа
Рисунок 1Обьединенная структура
PDB~Muscle MSA
Число последовательностей: 3
Длина первого выравнивания: 2359
Длина второго выравнивания: 1745
Процент совпадающих колонок в первом выравнивании: 0.08 %
Процент совпадающих колонок во втором выравнивании:: 0.11 %
Число совпадающих блоков: 1
('2257-2258', '1715-1716', 2)

Выводы

Выранивание, полученное при помощи Muscle, практически не совпадает с исходным структурным выравниванием, однако в выравнивании Muscle мы видим большое количество консервативных участков, что говорит нам об общности происхождения данных белков

Muscle alignment
Structure alignment

Задание 4

MUSCLE - это программа для создания множественного выравнивания аминокислотных или нуклеотидных последовательностей. Предоставляется ряд опций, которые позволяют оптимизировать точность, скорость или найти компромисс между ними. Параметры по умолчанию - это те, которые обеспечивают наилучшую среднюю точность в тестах. Тесты показали, что MUSCLE может достигать как лучшей средней точности, так и большей скорости, чем CLUSTALW или T‑Coffee, в зависимости от выбранных параметров.

Алгоритм MUSCLE поставляется в виде программы командной строки под названием muscle Качество выравниваний, производимых MUSCLE, варьируется, как и качество выравниваний, производимых другими программами, такими как CLUSTALW и T-Coffee. Иногда Muscle работает лучше, чем T-Coffee, хотя чаще бывает наоборот.

Входные данные могут быть взяты из стандартного ввода, а выходные данные могут быть записаны в стандартный вывод.

Есть возможность улучшить существующее выравнивание, для этого опцию –refine. В этом случае программа принимает на вход файл FASTA, содержащий выравнивание. Все последовательности должны быть одинаковой длины, пробелы могут быть указаны с помощью точек "." или тире "–".

Фундаментальным шагом в алгоритме работы с muscle является выравнивание двух последовательностей, каждая из которых содержит несколько входных последовательностей. Эту операцию иногда называют "выравнивание по профилю".

По умолчанию MUSCLE просматривает первые 100 букв во входных данных последовательности (исключая пробелы). Если 95% или более из этих букв являются нуклеотидами (AGCTUN), то файл обрабатывается как нуклеотидный, в противном случае - как белковый.

По умолчанию выходные данные также записываются в формате FASTA. Все буквы прописные, а пробелы обозначаются тире "–".

По умолчанию MUSCLE перестраивает последовательности таким образом, чтобы похожие последовательности располагались рядом в выходном файле. (Это делается путем упорядочивания последовательностей в соответствии с префиксным обходом направляющего дерева). Это облегчает оценку выравнивания на глаз.