Было проведено сравнение трёх алгоритмов множественного выравнивания (MSAA): MAFFT, MUSCLE и TCoffeeWS.
Рисунок 1. Последовательности, выравненные с помощью трёх алгоритмов.
Описание различий в выравниваниях:
В дальнейшем используются номера позиций не каждого из белков в отдельности, а выравнивания в целом, сделано это для простоты и наглядности. (Белковые выравнивания оказались одинаковой длины)
- Участок выравнивания 81-93:
- MAFFT: Гэпы в посл. 1; 2; 3; 5 в позициях 81-87; 83-85; 81-85; 81-87, соответственно.
- MUSCLE: Отличия: [инсерции] пары гэпов в посл. 1; 5; в позициях 82-85+91-93; 82-85+91-93.
- TCoffee: Сильные отличия: гэпы смещены у каждой из четырёх последовательностей (относительно предыдущих алгоритмов): 84-90; 84-86; 84-88; 84-90.
У выравниваний MAFFT и MUSCLE совпадают колонки 82-85; MAFFT и TCoffee - 84, 85, 91-93; MUSCLE и TCoffee - 84, 85 (из данного участка).
Предположение: Вполне понятно, что данная часть белка весьма неконсервативна и, скорее всего, не играет какой-либо существенной роли. Точно сказать, какое из выравниваний является более верным, затруднительно, так как последовательности очень сильно отличаются друг от друга.
- Участок выравнивания 101-103:
- MAFFT и MUSCLE: В последовательностях 2-6 гэп в позициях 101-102
- TCoffee: В последовательностях 2-6 гэп в позициях 102-103
На данном участке выравнивания MAFFT и MUSCLE полностью совпадают. У всех трёх выравниваний совпадает только колонка 102, где триптофану белка 1 не сопоставлен ни один из остатков в остальных цепях.
Предположение: Алгоритмы по-разному определили положение гэпа в последовательностях 1-5. Верного ответа здесь быть не может, но вариант делеции/вставки букв FW выглядит более правдоподобным.
- Участок выравнивания 115-124:
- MAFFT и MUSCLE: В последовательностях 1-4, 6 гэпы в позициях 115-121.
- TCoffee: В последовательностях 1-4, 6 гэпы в позициях 118-124.
На данном участке выравнивания MAFFT и MUSCLE полностью совпадают. У всех трёх выравниваний совпадают только колонки 118-121.
2. Доменные архитектуры
Для описания доменных арихитектур мною был выполнен поиск по последовательности в сервисе Pfam.
Рисунок 2. Найденные доменные архитектуры.
Как оказалось, исследуемый мною белок содержит только один домен – AhpC-TSA. Я рассмотрел различные оменные архитектуры с присутствием этого домена.
Архитектура | Названия доменов | # посл-й |
|
AhpC-TSA |
15262 |
|
DUF4369, AhpC-TSA |
630 |
|
DsbD, AhpC-TSA |
292 |
|
AhpC-TSA, 1-cysPrx_C, AhpC-TSA, 1-cysPrx_C |
4 |
|
AhpC-TSA, Glutaredoxin |
4 |