1. Программа сравнения множественных выравниваний
Был реализован алгоритм сравнения разных выравниваний одних и тех же последовательностей.
1. Последовательности сортируются по ID.
2. Остатки нумеруются.
3. Для каждой колонки строится вектор.
4. Совпадающие векторы считаются одинаковыми колонками.
Пример запуска алгоритма:
python compare_alignments.py a.fasta b.fasta out.txt
Справкак к нему вызывается следующим образом:
python compare_alignments.py -h
Файл программы: compare_alignments.py
2. Сравнение выравниваний разных программ
Использовались программы:
- MUSCLE
- MAFFT
- EMMA
muscle -align proteins.fasta -output muscle.fasta
mafft proteins.fasta > mafft.fasta
emma -sequence proteins.fasta -outseq emma.fasta -auto
Сравнение MUSCLE и MAFFT (по выдаче программы)
Было подсчитано 24 блока совпадений, общее совпавших число колонок - 554. Процент совпадений для выравнивания muscle - 66.83, длина выравнивания - 829; для выравнивания mafft соответственно 64.19 и 863. Примеры блоков совпадений: (65;76)-(69;80), (82;91)-(86;95), (98;111)-(101;114). Несовпадений: (112;119)-(115;122), (177;189)-(180;192).
Сравнение MUSCLE и EMMA (по выдаче программы)
Было подсчитано 13 блоков совпадений, общее совпавших число колонок - 494. Процент совпадений для выравнивания muscle - 59.59, длина выравнивания - 829; для выравнивания emma соответственно 60.91 и 811. Примеры блоков совпадений: (1;49)-(1;49), (120;142)-(109;131), (144;178)-(133;167). Несовпадений: (50;119)-(50;108), (179;183)-(167;172).
По результатам сравнения двух выравниваний выходит, что результат выравнивания muscle более схож с результатом выравнивания mafft - по большему числу совпавших колонок и процентам совпадений.
Проект Jalview (создан для визуализации трёх выравниваний): msa_compare.jvp
Совпавшие колонки выравниваний muscle и mafft: result_MM.txt
Совпавшие колонки выравниваний muscle и emma: result_M.txt
3. Сравнение структурного и последовательностного выравнивания
Были выбраны три белка семейства PF11175, содержащие домен GH172 second beta-sandwich domain:
- 7V1V
- 4KQ7
- 8AH3
Структурное выравнивание было выполнено с помощью PDBeFold. Последовательностное выравнивание строилось программой MUSCLE.
Сравнение выравнивания MUSCLE и структурного выравнивания (по выдаче программы)
Было подсчитано 16 блокjd совпадений, общее совпавших число колонок - 311. Процент совпадений для выравнивания muscle - 67.76, длина выравнивания - 459; для выравнивания структурного соответственно 67.32 и 462. Примеры блоков совпадений: (1;36)-(1;36), (42;63)-(41;62), (83;98)-(82;97). Несовпадений: (37;41)-(37;40), (64;82)-(63;81).
Совпавшие колонки выравниваний muscle и структурного выравнивания: result_MS.txt
Проект Jalview: structure_compare.jvp
4. Краткое описание программы MUSCLE
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) — программа множественного выравнивания последовательностей, использующая алгоритм прогрессивного выравнивания и итеративного рафинирования. Часто применяется для поиска консервативных участков, установления гомологии, построения филогенетических деревьев.
1. Составление попарных выравниваний.
2. Вычисление попарных расстояний и составление матрицы расстояний с помощью эвристического метода.
3. Построение направляющего дерева, которое определяет порядок добавления последовательностей в выравнивание.
4. Прогрессивное выравнивание.
5. Итеративное рафинирование.
К преимуществам данной программы относится:
- высокая скорость;
- хорошее качество выравнивания;
- поддержка итеративного рафинирования.
Недостатки:
- возможность закрепления ошибок на ранних стадиях работы программы;
- чувствительность к длинным вставкам.
Источник:
- Edgar R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput.