Практикум 12. Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов

Сравнение выравнивания одних и тех же последовательностей разными программами

При выполнении предыдущего пратикума я выбрала семейство доменов с AC: PF00998, поэтому в рамках данного практикума я продолжу работу с этим семейством. Я выбрала для работы следующие белки: RDRP_CRSVL (Q66096), RDRP_MNSV (Q83424), POLG_HCVCO (Q9WMX2), POLG_HCVEU (O39927).

Затем при помощи программы Jalview было произвдено множетвенное выравнивание (предварительно последовательности белков были скачаны в формате fasta с сайте Pfam).

**Рисунок 1.** Результат полученного множественного выравнивания

Результат выравнивания при помощи Muscle with defaults и Tcoffee with defaults

Для правильного сравнения результатов, полученных с помощью Muscle wuth defaults и Tcoffee with defaults, я воспользовалась программой, написанной Масленниковым Вячеславом Вадимовичем на языке Python. При помощи команды wget https://kodomo.fbb.msu.ru/~slavik123/term2/cmp_msa.py программа была скачана на компьютер, а затем при помощи команды python cmp_msa.py Загрузки/Muscle.pfam Загрузки/Tcoffee.pfam было произведено сравнение. Были получены следующие результаты:

Число последовательностей: 4
Длина первого выравнивания: 3028
Длина второго выравнивания: 3065
Процент совпадающих колонок в первом выравнивании: 60.04 %
Процент совпадающих колонок во втором выравнивании:: 59.31 %
Число совпадающих блоков: 60
('11-144', '11-144', 134)
('149-189', '149-189', 41)
('201-246', '201-246', 46)
('259-284', '259-284', 26)
('289-294', '289-294', 6)
('296-319', '296-319', 24)
('346-390', '346-390', 45)
('393-399', '393-399', 7)
('435-509', '435-509', 75)
('520-569', '520-569', 50)
('584-602', '584-602', 19)
('613-617', '613-617', 5)
('621-703', '621-703', 83)
('714-769', '714-769', 56)
('779-860', '779-860', 82)
('870-952', '870-952', 83)
('979-1035', '977-1033', 57)
('1093-1105', '1093-1105', 13)
('1115-1128', '1115-1128', 14)
('1133-1145', '1133-1145', 13)
('1159-1160', '1159-1160', 2)
('1176-1178', '1176-1178', 3)
('1185-1240', '1185-1240', 56)
('1291-1387', '1291-1387', 97)
('1457-1521', '1457-1521', 65)
('1604-1657', '1616-1669', 54)
('1688-1693', '1700-1705', 6)
('1706-1806', '1718-1818', 101)
('1814-1815', '1826-1827', 2)
('1882-1889', '1894-1901', 8)
('1894-1909', '1906-1921', 16)
('1942-1973', '1954-1985', 32)
('1981-2005', '1993-2017', 25)
('2018-2023', '2030-2035', 6)
('2049-2065', '2062-2078', 17)
('2086-2103', '2099-2116', 18)
('2111-2121', '2124-2134', 11)
('2174-2186', '2188-2200', 13)
('2218-2238', '2233-2253', 21)
('2255-2279', '2270-2294', 25)
('2322-2335', '2338-2351', 14)
('2342-2361', '2358-2377', 20)
('2370-2412', '2386-2428', 43)
('2420-2422', '2436-2438', 3)
('2438-2450', '2454-2466', 13)
('2457-2458', '2473-2474', 2)
('2482-2540', '2498-2556', 59)
('2586-2599', '2603-2616', 14)
('2611-2613', '2628-2630', 3)
('2628-2677', '2646-2695', 50)
('2681-2704', '2699-2722', 24)
('2707-2709', '2725-2727', 3)
('2713-2770', '2731-2788', 58)
('2777-2778', '2794-2795', 2)
('2796-2805', '2819-2828', 10)
('2876-2883', '2904-2911', 8)
('2906-2909', '2934-2937', 4)
('2926-2930', '2954-2958', 5)
('2934-2938', '2962-2966', 5)
('3020-3028', '3057-3065', 9)

Выравнивнаие Muscle with defaults в формате Pfam

Выравнивание Tcoffee with defaults в формате Pfam

Исходя из полученных данных, можно предположить, что гомологичные участки выравниваются в данных программах идентично, в то время как негомологичные участки отличаются в выравнивании.

Абсолютно аналогичные действия были проведены для этих последовательностей, но теперь сравнивалась работа программ Muscle with defaults и Mafft with defaults.

**Рисунок 2.** Результат полученного множественного выравнивания

Результат выравнивания при помощи Muscle with defaults и Mafft with defaults

Число последовательностей: 4
Длина первого выравнивания: 3028
Длина второго выравнивания: 3053
Процент совпадающих колонок в первом выравнивании: 66.55 %
Процент совпадающих колонок во втором выравнивании:: 66.0 %
Число совпадающих блоков: 63
('1-122', '1-122', 122)
('126-170', '126-170', 45)
('175-263', '175-263', 89)
('275-283', '275-283', 9)
('296-319', '296-319', 24)
('346-415', '348-417', 70)
('426-487', '428-489', 62)
('490-509', '492-511', 20)
('520-529', '522-531', 10)
('534-569', '536-571', 36)
('584-590', '587-593', 7)
('595-602', '598-605', 8)
('613-749', '616-752', 137)
('758-769', '761-772', 12)
('777-799', '780-802', 23)
('803-809', '806-812', 7)
('836-860', '842-866', 25)
('870-955', '876-961', 86)
('979-1028', '983-1032', 50)
('1053-1055', '1057-1059', 3)
('1087-1239', '1091-1243', 153)
('1245-1276', '1249-1280', 32)
('1291-1380', '1295-1384', 90)
('1412-1419', '1416-1423', 8)
('1457-1522', '1461-1526', 66)
('1547-1565', '1551-1569', 19)
('1584-1591', '1588-1595', 8)
('1604-1655', '1608-1659', 52)
('1673-1769', '1677-1773', 97)
('1775-1815', '1779-1819', 41)
('1837-1852', '1841-1856', 16)
('1862-1889', '1866-1893', 28)
('1894-1909', '1898-1913', 16)
('1990-2006', '1995-2011', 17)
('2019-2021', '2024-2026', 3)
('2049-2058', '2054-2063', 10)
('2086-2095', '2091-2100', 10)
('2113-2127', '2120-2134', 15)
('2159-2193', '2165-2199', 35)
('2220-2236', '2226-2242', 17)
('2259-2266', '2265-2272', 8)
('2322-2335', '2329-2342', 14)
('2342-2361', '2349-2368', 20)
('2371-2397', '2378-2404', 27)
('2405-2412', '2412-2419', 8)
('2420-2427', '2427-2434', 8)
('2434-2472', '2441-2479', 39)
('2487-2488', '2494-2495', 2)
('2501-2504', '2508-2511', 4)
('2522-2540', '2529-2547', 19)
('2559-2564', '2566-2571', 6)
('2583-2585', '2590-2592', 3)
('2589-2599', '2596-2606', 11)
('2616-2676', '2625-2685', 61)
('2680-2699', '2689-2708', 20)
('2706-2710', '2715-2719', 5)
('2714-2768', '2723-2777', 55)
('2773-2775', '2782-2784', 3)
('2788-2805', '2800-2817', 18)
('2813-2833', '2826-2846', 21)
('2836-2839', '2849-2852', 4)
('2842-2897', '2855-2910', 56)
('3011-3028', '3036-3053', 18)

Выравнивание Mafft with defaults в формате Pfam

Сравнивая полученную информацию с той, что была получена ранее, можно сделать вывод, что алгоритм Mafft работает чуть лучше, чем Tcoffee, однако Muscle является самым точным из данной тройки.

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Из того же семейства PF00998 я выбрала следующие белки с PDB ID: 1QUV, 2BRK, 3FQL. Я построила выравнивание на сайте PDB и в Jalview.

**Рисунок 3.** Таблица с данными для сравнения на сайте PDB

**Рисунок 4.** Полученный результат на сайте PDB

Проект в Jalview

**Рисунок 5.** Полученный результат в программе Jalview

Файл в формате txt с выравниванием с PDB

Результаты выравниваний достаточно старнные, с учетом того, что выравнивание с PDB имеет только 2 последовательности из 3 (референсная последовательность не отображается в выравнивании), но все же можно заметить, что схожесть в выранвианиях есть.

Краткое описание одной из программ MSA

MSA — выравнивание трёх и более биологических последовательностей (белков, ДНК, РНК). Обычно предполагается, что входной набор последовательностей имеет эволюционную связь. Применяя множественное выравнивание, можно оценить эволюционное происхождение последовательностей. Области применения MSA: оценка консервативности доменов белков, вторичных структур, третичных структур, а также отдельных аминокислотных остатков и нуклеотидов.

MUSCLE

Сравнение множественных последовательностей по логарифмическому ожиданию (MUSCLE) - это компьютерное программное обеспечение для множественного выравнивания последовательностей белков и нуклеотидов. Оно лицензировано как общественное достояние. Метод был опубликован Робертом К. Эдгаром в двух статьях в 2004 году. В первой статье, опубликованной в Исследовании нуклеиновых кислот, был представлен алгоритм выравнивания последовательностей. Во второй статье, опубликованной в BMC Bioinformatics, представлено больше технических деталей.

Алгоритм MUSCLE выполняется в три этапа: этап черновика progressive, этап улучшения progressive и этап доработки.

Информация взята с сайта Википедия