Для задания 2 был использован код, написанный Вячеславом Масленниковым, с его одобрения
В данном случае берется множественное выравнивание пяти белков из практикума 9: NADA_ASPFU, NADA_PYRHO, NADA_THERO, NADO_ASPPU, NADO_THEMA
TCOFFEE~MUSCLE |
---|
Число последовательностей: 7 |
Длина первого выравнивания: 610 |
Длина второго выравнивания: 468 |
Процент совпадающих колонок в первом выравнивании: 8.52 % |
Процент совпадающих колонок во втором выравнивании:: 11.11 % |
Число совпадающих блоков: 7 |
('71-74', '51-54', 4)('127-128', '110-111', 2)('266-270', '171-175', 5)('273-275', '178-180', 3) ('279-293', '184-198', 15) ('470-475', '334-339', 6) ('522-536', '386-400', 15) |
TCOFFEE~MAFFT |
---|
Число последовательностей: 7 |
Длина первого выравнивания: 610 |
Длина второго выравнивания: 562 |
Процент совпадающих колонок в первом выравнивании: 12.46 % |
Процент совпадающих колонок во втором выравнивании:: 13.52 % |
Число совпадающих блоков: 11 |
('28-35', '25-32', 8) ('71-93', '48-70', 23) ('147-154', '126-133', 8) ('177-179', '156-158', 3) ('244-246', '231-233', 3) ('248-250', '235-237', 3) ('254-257', '241-244', 4) ('378-384', '290-296', 7) ('400-401', '312-313', 2) ('533-536', '499-502', 4) ('565-568', '528-531', 4) |
Далее было решено также проверить программу, используя результат программы BLAST для Шикимат-дегидрогеназы(Shikimate dehydrogenase (NADP(+))), A0A832T1A5_9EURY, множественно выравненный, использовавшийся при выполнении практикума 10
Tcoffee2.pfam~Mafft2.pfam |
---|
Число последовательностей: 7 |
Длина первого выравнивания: 946 |
Длина второго выравнивания: 946 |
Процент совпадающих колонок в первом выравнивании: 93.02 % |
Процент совпадающих колонок во втором выравнивании:: 93.02 % |
Число совпадающих блоков: 9 |
('1-55', '1-55', 55)('66-68', '66-68', 3)('79-85', '79-85', 7)('96-197', '96-197', 102)('204-206', '204-206', 3)('213-215', '213-215', 3)('223-232', '223-232', 10) ('236-476', '236-476', 241)('495-946', '495-946', 452) |
Mafft2.pfam~Muscle2.pfam |
---|
Число последовательностей: 7 |
Длина первого выравнивания: 946 |
Длина второго выравнивания: 946 |
Процент совпадающих колонок в первом выравнивании: 96.51 % |
Процент совпадающих колонок во втором выравнивании:: 96.51 % |
Число совпадающих блоков: 9 |
('1-58', '1-58', 58)('62-68', '62-68', 7)('75-76', '75-76', 2)('79-85', '79-85', 7)('93-94', '93-94', 2)('96-197', '96-197', 102) ('203-206', '203-206', 4)('211-215', '211-215', 5)('221-946', '221-946', 726) |
Tcoffee2.pfam~Muscle2.pfam |
---|
Число последовательностей: 7 |
Длина первого выравнивания: 946 |
Длина второго выравнивания: 946 |
Процент совпадающих колонок в первом выравнивании: 94.29 % |
Процент совпадающих колонок во втором выравнивании:: 94.29 % |
Число совпадающих блоков: 10 |
('1-55', '1-55', 55) ('66-70', '66-70', 5) ('76-87', '76-87', 12) ('95-197', '95-197', 103) ('200-201', '200-201', 2) ('204-207', '204-207', 4) ('213-219', '213-219', 7) ('223-232', '223-232', 10) ('236-476', '236-476', 241) ('495-946', '495-946', 452) |
Здесь было решено использовать данное выравнивание из одной из последних классных работ, белков ABX76752.1 и 28 других
Tcoffee3.pfam~Mafft3.pfam |
---|
Число последовательностей: 29 |
Длина первого выравнивания: 114 |
Длина второго выравнивания: 113 |
Процент совпадающих колонок в первом выравнивании: 67.54 % |
Процент совпадающих колонок во втором выравнивании:: 68.14 % |
Число совпадающих блоков: 4 |
('1-13', '1-13', 13) ('25-29', '24-28', 5) ('42-78', '41-77', 37) ('82-103', '81-102', 22) |
Mafft3.pfam~Muscle3.pfam |
---|
Число последовательностей: 29 |
Длина первого выравнивания: 113 |
Длина второго выравнивания: 109 |
Процент совпадающих колонок в первом выравнивании: 50.44 % |
Процент совпадающих колонок во втором выравнивании:: 52.29 % |
Число совпадающих блоков: 3 |
('1-9', '1-9', 9) ('41-77', '37-73', 37) ('81-90', '77-86', 10) |
Tcoffee3.pfam~Muscle3.pfam |
---|
Число последовательностей: 29 |
Длина первого выравнивания: 114 |
Длина второго выравнивания: 109 |
Процент совпадающих колонок в первом выравнивании: 51.75 % |
Процент совпадающих колонок во втором выравнивании:: 54.13 % |
Число совпадающих блоков: 3 |
('1-9', '1-9', 9) ('41-78', '36-73', 38) ('81-91', '76-86', 11) |
Сравнив результаты можно предположить, что программа Tcoffee наиболее точно выравнивает последовательности белков, с большим процентом сходства, в других же случаях Muscle и Mafft могут быть более эффективными, что можно заметить из выдачи программы в пункте 1. Mafft же эффективен в обоих случаях, мы это можем предположить из процента совпадающих колонок, так как если брать выравнивание Tcoffee как эталонное, и в некоторых случаях Mafft эффективнее, а в некоторых случаях Muscle дает более приближенный к эталонному результат, что можно видеть из выдачи программы в разных приведенных выше случаях.
PF00002 7 transmembrane receptor (Secretin family) - семейство, белки которого были выбраны для анализа
PDB~Muscle MSA |
---|
Число последовательностей: 3 |
Длина первого выравнивания: 2359 |
Длина второго выравнивания: 1745 |
Процент совпадающих колонок в первом выравнивании: 0.08 % |
Процент совпадающих колонок во втором выравнивании:: 0.11 % |
Число совпадающих блоков: 1 |
('2257-2258', '1715-1716', 2) |
Выранивание, полученное при помощи Muscle, практически не совпадает с исходным структурным выравниванием, однако в выравнивании Muscle мы видим большое количество консервативных участков, что говорит нам об общности происхождения данных белков
MUSCLE - это программа для создания множественного выравнивания аминокислотных или нуклеотидных последовательностей. Предоставляется ряд опций, которые позволяют оптимизировать точность, скорость или найти компромисс между ними. Параметры по умолчанию - это те, которые обеспечивают наилучшую среднюю точность в тестах. Тесты показали, что MUSCLE может достигать как лучшей средней точности, так и большей скорости, чем CLUSTALW или T‑Coffee, в зависимости от выбранных параметров.
Алгоритм MUSCLE поставляется в виде программы командной строки под названием muscle Качество выравниваний, производимых MUSCLE, варьируется, как и качество выравниваний, производимых другими программами, такими как CLUSTALW и T-Coffee. Иногда Muscle работает лучше, чем T-Coffee, хотя чаще бывает наоборот.
Входные данные могут быть взяты из стандартного ввода, а выходные данные могут быть записаны в стандартный вывод.
Есть возможность улучшить существующее выравнивание, для этого опцию –refine. В этом случае программа принимает на вход файл FASTA, содержащий выравнивание. Все последовательности должны быть одинаковой длины, пробелы могут быть указаны с помощью точек "." или тире "–".
Фундаментальным шагом в алгоритме работы с muscle является выравнивание двух последовательностей, каждая из которых содержит несколько входных последовательностей. Эту операцию иногда называют "выравнивание по профилю".
По умолчанию MUSCLE просматривает первые 100 букв во входных данных последовательности (исключая пробелы). Если 95% или более из этих букв являются нуклеотидами (AGCTUN), то файл обрабатывается как нуклеотидный, в противном случае - как белковый.
По умолчанию выходные данные также записываются в формате FASTA. Все буквы прописные, а пробелы обозначаются тире "–".
По умолчанию MUSCLE перестраивает последовательности таким образом, чтобы похожие последовательности располагались рядом в выходном файле. (Это делается путем упорядочивания последовательностей в соответствии с префиксным обходом направляющего дерева). Это облегчает оценку выравнивания на глаз.