Практикум 12. Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов

Сравнение выравнивания одних и тех же последовательностей разными программами

При выполнении предыдущего пратикума я выбрала семейство доменов с AC: PF00998, поэтому в рамках данного практикума я продолжу работу с этим семейством. Я выбрала для работы следующие белки: RDRP_CRSVL (Q66096), RDRP_MNSV (Q83424), POLG_HCVCO (Q9WMX2), POLG_HCVEU (O39927).

Затем при помощи программы Jalview было произвдено множетвенное выравнивание (предварительно последовательности белков были скачаны в формате fasta с сайте Pfam).

Рисунок 1. Результат полученного множественного выравнивания

Результат выравнивания при помощи Muscle with defaults и Tcoffee with defaults

Для правильного сравнения результатов, полученных с помощью Muscle wuth defaults и Tcoffee with defaults, я воспользовалась программой, написанной Масленниковым Вячеславом Вадимовичем на языке Python. При помощи команды wget https://kodomo.fbb.msu.ru/~slavik123/term2/cmp_msa.py программа была скачана на компьютер, а затем при помощи команды python cmp_msa.py Загрузки/Muscle.pfam Загрузки/Tcoffee.pfam было произведено сравнение. Были получены следующие результаты:

Выравнивнаие Muscle with defaults в формате Pfam

Выравнивание Tcoffee with defaults в формате Pfam

Исходя из полученных данных, можно предположить, что гомологичные участки выравниваются в данных программах идентично, в то время как негомологичные участки отличаются в выравнивании.

Абсолютно аналогичные действия были проведены для этих последовательностей, но теперь сравнивалась работа программ Muscle with defaults и Mafft with defaults.

Рисунок 2. Результат полученного множественного выравнивания

Результат выравнивания при помощи Muscle with defaults и Mafft with defaults

Выравнивание Mafft with defaults в формате Pfam

Сравнивая полученную информацию с той, что была получена ранее, можно сделать вывод, что алгоритм Mafft работает чуть лучше, чем Tcoffee, однако Muscle является самым точным из данной тройки.

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Из того же семейства PF00998 я выбрала следующие белки с PDB ID: 1QUV, 2BRK, 3FQL. Я построила выравнивание на сайте PDB и в Jalview.

Рисунок 3. Таблица с данными для сравнения на сайте PDB
Рисунок 4. Полученный результат на сайте PDB

Проект в Jalview

Рисунок 5. Полученный результат в программе Jalview
Файл в формате txt с выравниванием с PDB

Результаты выравниваний достаточно старнные, с учетом того, что выравнивание с PDB имеет только 2 последовательности из 3 (референсная последовательность не отображается в выравнивании), но все же можно заметить, что схожесть в выранвианиях есть.

Краткое описание одной из программ MSA

MSA — выравнивание трёх и более биологических последовательностей (белков, ДНК, РНК). Обычно предполагается, что входной набор последовательностей имеет эволюционную связь. Применяя множественное выравнивание, можно оценить эволюционное происхождение последовательностей. Области применения MSA: оценка консервативности доменов белков, вторичных структур, третичных структур, а также отдельных аминокислотных остатков и нуклеотидов.

MUSCLE

Сравнение множественных последовательностей по логарифмическому ожиданию (MUSCLE) - это компьютерное программное обеспечение для множественного выравнивания последовательностей белков и нуклеотидов. Оно лицензировано как общественное достояние. Метод был опубликован Робертом К. Эдгаром в двух статьях в 2004 году. В первой статье, опубликованной в Исследовании нуклеиновых кислот, был представлен алгоритм выравнивания последовательностей. Во второй статье, опубликованной в BMC Bioinformatics, представлено больше технических деталей.

Алгоритм MUSCLE выполняется в три этапа: этап черновика progressive, этап улучшения progressive и этап доработки.

Информация взята с сайта Википедия

Рисунок 6. Схема алгоритма MUSCLE