Практикум 12

Алгоритмы и программы множественного выравнивания

1. Программа сравнения множественных выравниваний

Был реализован алгоритм сравнения разных выравниваний одних и тех же последовательностей.

Алгоритм:
1. Последовательности сортируются по ID.
2. Остатки нумеруются.
3. Для каждой колонки строится вектор.
4. Совпадающие векторы считаются одинаковыми колонками.

Пример запуска алгоритма:

python compare_alignments.py a.fasta b.fasta out.txt

Справкак к нему вызывается следующим образом:

python compare_alignments.py -h

Файл программы: compare_alignments.py

2. Сравнение выравниваний разных программ

Использовались программы:

Команды:

muscle -align proteins.fasta -output muscle.fasta

mafft proteins.fasta > mafft.fasta

emma -sequence proteins.fasta -outseq emma.fasta -auto

Сравнение MUSCLE и MAFFT (по выдаче программы)

Было подсчитано 24 блока совпадений, общее совпавших число колонок - 554. Процент совпадений для выравнивания muscle - 66.83, длина выравнивания - 829; для выравнивания mafft соответственно 64.19 и 863. Примеры блоков совпадений: (65;76)-(69;80), (82;91)-(86;95), (98;111)-(101;114). Несовпадений: (112;119)-(115;122), (177;189)-(180;192).

Сравнение MUSCLE и EMMA (по выдаче программы)

Было подсчитано 13 блоков совпадений, общее совпавших число колонок - 494. Процент совпадений для выравнивания muscle - 59.59, длина выравнивания - 829; для выравнивания emma соответственно 60.91 и 811. Примеры блоков совпадений: (1;49)-(1;49), (120;142)-(109;131), (144;178)-(133;167). Несовпадений: (50;119)-(50;108), (179;183)-(167;172).

По результатам сравнения двух выравниваний выходит, что результат выравнивания muscle более схож с результатом выравнивания mafft - по большему числу совпавших колонок и процентам совпадений.

Проект Jalview (создан для визуализации трёх выравниваний): msa_compare.jvp

Совпавшие колонки выравниваний muscle и mafft: result_MM.txt

Совпавшие колонки выравниваний muscle и emma: result_M.txt

3. Сравнение структурного и последовательностного выравнивания

Были выбраны три белка семейства PF11175, содержащие домен GH172 second beta-sandwich domain:

Структурное выравнивание было выполнено с помощью PDBeFold. Последовательностное выравнивание строилось программой MUSCLE.

alignment
Рисунок 1. Совмещение трёх белковых структур.

Сравнение выравнивания MUSCLE и структурного выравнивания (по выдаче программы)

Было подсчитано 16 блокjd совпадений, общее совпавших число колонок - 311. Процент совпадений для выравнивания muscle - 67.76, длина выравнивания - 459; для выравнивания структурного соответственно 67.32 и 462. Примеры блоков совпадений: (1;36)-(1;36), (42;63)-(41;62), (83;98)-(82;97). Несовпадений: (37;41)-(37;40), (64;82)-(63;81).

Совпавшие колонки выравниваний muscle и структурного выравнивания: result_MS.txt

Проект Jalview: structure_compare.jvp

4. Краткое описание программы MUSCLE

MUSCLE (MUltiple Sequence Comparison by Log-Expectation) — программа множественного выравнивания последовательностей, использующая алгоритм прогрессивного выравнивания и итеративного рафинирования. Часто применяется для поиска консервативных участков, установления гомологии, построения филогенетических деревьев.

Этапы алгоритма:
1. Составление попарных выравниваний.
2. Вычисление попарных расстояний и составление матрицы расстояний с помощью эвристического метода.
3. Построение направляющего дерева, которое определяет порядок добавления последовательностей в выравнивание.
4. Прогрессивное выравнивание.
5. Итеративное рафинирование.

К преимуществам данной программы относится:

Недостатки:

Источник: