Практикум 13. Алгоритмы и программы множественного выравнивания
2. Сравнение выравниваний разными программами.
🌸 Выбор алгоритмов и создание выравниваний
Семейство белков для выравниваний: PF00072. Выбранные программы:
MSAProbs в качестве референсной, так как согласно результатом сравнения программ на BaliBase, выравнивания этим алгоритмом наиболее близки к эволюционным.
MAFFT как алгоритм, использующий интерактивное рафинирование, а так же как компромисс качества и скорости.
PROBCONS как метод, основанный на согласованности.
При выборе алгоритмов я придерживалась двух критериев: представленность большего разнообразия методов и наличие программы в Jalview. В качестве инструмента сравнения
трех программ я использовала скрипт на питоне (Copyright by
Дмитрий Липченчук).
Чтобы открыть изначальное выравнивание seed в Jalview и запустить алгоритмы трёх выравниваний, я выполнила следующую последовательность действий:
В главном окне JalView выполнить File → Fetch sequences → в меню Select Database выбрать PFAM (Seed) → ввести в окошко AC домена (PF15005) → OK.
в меню окна Web Service → Alignment → выбрать нужный [METHOD] with defaults.
🌸 Сравнение выравниваний друг с другом и выводы
🌸🌸 MSAPROBS VS MAFFT
Скачав файлы выравниваний в формате фаста с Jalview (File → Save As → ...) и закинув их на сервер кодомо вместе со скриптом для анализа, я
выполнила файл следующей командой:
Одинаково выровненные колонки, не входящие в блоки (одиночные совпадения):
Колонка 104 в MSAprobs_alig.fa соответствует колонке 107 в Probcons_alig.fa
Колонка 125 в MSAprobs_alig.fa соответствует колонке 127 в Probcons_alig.fa
🌸🌸 ВЫВОДЫ
Количество совпадающих блоков в случае Probcons vs MSAProbs больше (14 против 9),
общая длина идентичных блоков так же больше: в то время как в сравнении с Probcons
самый длинный совпадающий блок из 16 колонок, а так же есть много блоков средней длины, в сравнении
с Mafft самый длинный блок состоит из 6 колонок, и преобладают, как правило, короткие блоки (1-3 колонки).
Оба метода хорошо сохранили начальный регион (1-18(20) колонки) и центральные консервативные участки.
Однако для подтверждения того, что Probcons значительно ближе к референсному выравниванию MSAProbs, стоит
узнать точный процент идентичных колонок с помощью опции -p. Команды:
Percentage of columns in MSAprobs_alig.fa identical to those of the second alignment: 66.03%
Percentage of columns in Probcons_alig.fa identical to those of the second alignment: 64.78%
Percentage of columns in MSAprobs_alig.fa identical to those of the second alignment: 28.85%
Percentage of columns in Mafft_alig.fa identical to those of the second alignment: 27.61%
В то время как средний процент идентичных колонок Probcons и MSAProbs равен 65.4%, тот же самый
показатель для Mafft и MSAProbs равен 28.2%. Из всего выше сказаного можно сделать вывод, что
Probcons в 2.3 раза больше соответствует референсному выравниванию.
3. Сравнение выравнивания по совмещению структур и по MSA.
Выравнивание по совмещению структур.
Выбранное семейство: PF00035. На сайте InterPro по данному идентификатору я нашла
нужное семейство белков, у которого было всего 157 3D структур. Среди них я выбрала более менее похожие белки, их Accession: 1yyk, 1yyo, 1yz9.
На сайте RCSB PDB я получила выравнивание 1ой и 2ой, 1ой и 3ей последовательностей, а так же наложение всех трех структур.
Рис. 1. Наложение структур белоков, скопированное с сайта PDB.
Подобным образом, что и в прошлом задании, я перевыравняла получившееся множественное выравнивание путём использования программы MSAProbs в Jalview.
Сразу после открытия двух окон выравниваний, отпадает потребность в дополнительном анализе скриптом на питон, так как визуально очень хорошо видно, что
алгоритм MSAProbs в этом случае справился лучше.
Программа MSAProbs — это инструмент для построния множественных выравниваний белковых последовательностей,
сочетающий высокую точность и поддержку многопоточных вычислений.
🔬Основные особенности программы:
Высокая точность: MSAProbs использует комбинацию парных скрытых марковских моделей (pair hidden Markov models)
и функций распределения (partition functions) для расчета апостериорных вероятностей, что обеспечивает высокую
точность выравнивания. При тестировании на наборах BAliBASE, PREFAB, SABmark и OXBENCH программа показала статистически
значимое улучшение точности по сравнению с другими популярными программами, такими как ClustalW, MAFFT, MUSCLE, ProbCons и Probalign.
Алгоритм: Основной алгоритм основан на прогрессивном выравнивании (progressive alignment), а
для повышения точности в него включены два ключевых метода: взвешенное вероятностное согласование
(weighted probabilistic consistency transformation) и взвешенное профиль-профильное выравнивание (weighted profile-profile alignment).
Производительность: MSAProbs работает чуть дольше других программ, однако точнее.
Практическое применение: Исходный код программы, написанный на C++, является свободно доступным.
Программа поддерживает различные операционные системы (Linux, Mac OS X, Windows) и работает с форматом входных/выходных данных FASTA.