← Назад

Практикум №9: Выравнивание последовательностей

1. Программа подсчёта инделей

Написана программа на Python ~/term2/indels/indels.py, которая анализирует файл выравнивания и считает количество инделей в каждой последовательности.

2. Глобальное выравнивание (needle)

Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Как найти эти данные?Score, % Identity, % Similarity и Gaps взяты из выходных файлов needle. Indels посчитаны программой indels.py. Chaperonin GroEL CH60_ECOLI CH60_BACSU 1694.5 61.5% 77.3% 8 5
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.4% 72.9% 33 5
RNA polymerase subunit beta RPOB_ECOLI RPOB_BACSU 3034.0 42.5% 55.5% 433 17

3. Локальное выравнивание (water)

Protein NameID 1ID 2Score% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Как найти эти данные?Score, % Identity, % Similarity и Gaps взяты из выходных файлов water. Indels посчитаны программой indels.py. Coverage рассчитано как (длина фрагмента)/(полная длина белка)×100%.
Chaperonin GroEL CH60_ECOLI CH60_BACSU 1695.5 61.7% 77.6% 7 4 99.6% 99.8%
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.8% 73.3% 30 4 99.7% 99.2%
RNA polymerase subunit beta RPOB_ECOLI RPOB_BACSU 3039.0 43.7% 57.0% 396 14 60.1% 61.7%

4. Комментарии к выравниваниям

GroEL (CH60_ECOLI / CH60_BACSU)

Гомологичны ли белки по всей длине? Да. Процент идентичности (61.5% для глобального и 61.7% для локального выравнивания). Белки имеют одинаковую длину (548 и 544 а.о.) и выравниваются практически по всей длине.

Информативно ли локальное выравнивание по сравнению с глобальным? Оба выравнивания дали схожие результаты. Локальное выравнивание показало немного более высокий процент идентичности (61.7% против 61.5%) и меньшее количество гэпов, и инделей . Это связано с тем, что локальное выравнивание игнорирует небольшие негомологичные участки по краям.

Различия в выравнивании: Отличий практически нет, кроме небольшого сдвига в начале выравнивания .

DnaK (DNAK_ECOLI / DNAK_BACSU)

Гомологичны ли белки по всей длине? Да. Процент идентичности (55.4% и 55.8%) также значительно выше порога гомологии. Полные длины белков различаются (638 и 611 а.о.), что объясняется вставками/делециями.

Информативно ли локальное выравнивание по сравнению с глобальным? Оба выравнивания близки по результатам. Локальное выравнивание показало немного более высокий процент идентичности (55.8% против 55.4%) и меньшее количество гэпов, и инделей . Покрытие составило 99.7% для DNAK_ECOLI и 99.2% для DNAK_BACSU.

Различия в выравнивании: Основные различия связаны с C-концевым участком, где у DNAK_BACSU есть дополнительные аминокислоты, которые не попали в локальное выравнивание.

РНК-полимераза β (RPOB_ECOLI / RPOB_BACSU)

Гомологичны ли белки по всей длине? Да, но не полностью. Процент идентичности (42.5% и 43.7%) выше порога гомологии, но белки имеют разную длину (1342 и 1157 а.о.). В глобальном выравнивании много гэпов , что указывает на наличие вставок/делеций.

Информативно ли локальное выравнивание по сравнению с глобальным? Локальное выравнивание показало более высокий процент идентичности (43.7% против 42.5%) и значительно меньшее количество гэпов и инделей. Покрытие составило 60.1% для RPOB_ECOLI и 61.7% для RPOB_BACSU. Это говорит о том, что часть белка не гомологична.

Различия в выравнивании: В глобальном выравнивании многие участки выровнены с большим количеством гэпов, тогда как локальное выравнивание выделяет наиболее консервативные домены (например, активный сайт РНК-полимеразы).

5. Неродственные белки

Взяты белки с разными функциями: EFTS_ECOL6 и DNAK_BACSU

ВыравниваниеScore% Identity% SimilarityGapsIndels
Глобальное (needle) 48.5 10.8% 16.7% 384 16
Локальное (water) 56.5 25.9% 36.2% 61 10
Вывод: Белки являются неродственными. Процент идентичности для глобального выравнивания составляет всего 10.8%, что значительно ниже порога гомологии. Локальное выравнивание показывает небольшой участок сходства (25.9% идентичности), который, вероятно, связан со случайными совпадениями или общей вторичной структурой. Высокое количество гэпов также подтверждает отсутствие эволюционной связи.

6. Множественное выравнивание

Мнемоника: CH60 (шаперонин GroEL)

Полное имя белка из E. coli: Chaperonin GroEL

Количество найденных белков в Swiss-Prot: 791 (по запросу id:CH60_* AND reviewed:true)

Выбранные 5 белков (помимо CH60_ECOLI и CH60_BACSU):

Проект Jalview: Скачать проект Jalview

Комментарии к выравниванию:
Все 7 белков хорошо выровнялись по всей длине. Наиболее консервативные участки (колонки 37, 40-42, 45-46) соответствуют доменам связывания АТФ и содержат консервативные остатки W (триптофан), P (пролин), G (глицин).

← Назад к списку работ