Практикум 12. Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов
Сравнение выравнивания одних и тех же последовательностей разными программами
При выполнении предыдущего пратикума я выбрала семейство доменов с AC: PF00998, поэтому в рамках данного практикума я продолжу работу с этим семейством. Я выбрала для работы следующие белки: RDRP_CRSVL (Q66096), RDRP_MNSV (Q83424), POLG_HCVCO (Q9WMX2), POLG_HCVEU (O39927).
Затем при помощи программы Jalview было произвдено множетвенное выравнивание (предварительно последовательности белков были скачаны в формате fasta с сайте Pfam).
Рисунок 1. Результат полученного множественного выравнивания
Для правильного сравнения результатов, полученных с помощью Muscle wuth defaults и Tcoffee with defaults, я воспользовалась программой, написанной Масленниковым Вячеславом Вадимовичем на языке Python. При помощи команды wget https://kodomo.fbb.msu.ru/~slavik123/term2/cmp_msa.py программа была скачана на компьютер, а затем при помощи команды python cmp_msa.py Загрузки/Muscle.pfam Загрузки/Tcoffee.pfam было произведено сравнение. Были получены следующие результаты:
Число последовательностей: 4
Длина первого выравнивания: 3028
Длина второго выравнивания: 3065
Процент совпадающих колонок в первом выравнивании: 60.04 %
Процент совпадающих колонок во втором выравнивании:: 59.31 %
Исходя из полученных данных, можно предположить, что гомологичные участки выравниваются в данных программах идентично, в то время как негомологичные участки отличаются в выравнивании.
Абсолютно аналогичные действия были проведены для этих последовательностей, но теперь сравнивалась работа программ Muscle with defaults и Mafft with defaults.
Рисунок 2. Результат полученного множественного выравнивания
Сравнивая полученную информацию с той, что была получена ранее, можно сделать вывод, что алгоритм Mafft работает чуть лучше, чем Tcoffee, однако Muscle является самым точным из данной тройки.
Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA
Из того же семейства PF00998 я выбрала следующие белки с PDB ID: 1QUV, 2BRK, 3FQL. Я построила выравнивание на сайте PDB и в Jalview.
Рисунок 3. Таблица с данными для сравнения на сайте PDB
Рисунок 4. Полученный результат на сайте PDB
Результаты выравниваний достаточно старнные, с учетом того, что выравнивание с PDB имеет только 2 последовательности из 3 (референсная последовательность не отображается в выравнивании), но все же можно заметить, что схожесть в выранвианиях есть.
Краткое описание одной из программ MSA
MSA — выравнивание трёх и более биологических последовательностей (белков, ДНК, РНК). Обычно предполагается, что входной набор последовательностей имеет эволюционную связь. Применяя множественное выравнивание, можно оценить эволюционное происхождение последовательностей. Области применения MSA: оценка консервативности доменов белков, вторичных структур, третичных структур, а также отдельных аминокислотных остатков и нуклеотидов.
MUSCLE
Сравнение множественных последовательностей по логарифмическому ожиданию (MUSCLE) - это компьютерное программное обеспечение для множественного выравнивания последовательностей белков и нуклеотидов. Оно лицензировано как общественное достояние. Метод был опубликован Робертом К. Эдгаром в двух статьях в 2004 году. В первой статье, опубликованной в Исследовании нуклеиновых кислот, был представлен алгоритм выравнивания последовательностей. Во второй статье, опубликованной в BMC Bioinformatics, представлено больше технических деталей.
Алгоритм MUSCLE выполняется в три этапа: этап черновика progressive, этап улучшения progressive и этап доработки.