Практикум 9. Выравнивания

Глобальное парное выравнивание гомологичных белков

Скрипт на Python для нахождения пар белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции Python

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Acetylornithine aminotransferase ARGD_ECOLI ARGD_BACSU 721.0 37.9% 54.8% 27 7
Cysteine synthase CYSK_ECOLI CYSK_BACSU 766.0 51.5% 66.6% 33 11
1-(5-phosphoribosyl)-5-[(5-phosphoribosylamino)methylideneamino] imidazole-4-carboxamide isomerase HIS4_ECOLI HIS4_BACSU 374.0 34.9% 54.8% 14 5

Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Acetylornithine aminotransferase ARGD_ECOLI ARGD_BACSU 736.0 41.3% 59.2% 12 4 91.4% 91.2%
Cysteine synthase CYSK_ECOLI CYSK_BACSU 775.5 54.0% 69.3% 21 8 92.0% 93.2%
1-(5-phosphoribosyl)-5-[(5-phosphoribosylamino)methylideneamino] imidazole-4-carboxamide isomerase HIS4_ECOLI HIS4_BACSU 382.0 36.5% 56.8% 10 4 95.9% 93.1%

Размышления и выводы:

Данные белки скорее всего можно назвать гомологичными по всей длине, так как они имеют:

  • Высокий вес выравниваний (в третьем выравнии он ниже из-за маленькой длины белка)
  • Процент идентичности > 30% (второе выравнивание даже > 50%), иначе говоря значительна часть аминокислотной последовательности совпадает в обоих белках.
  • Процент схожести около 55-65% говорит о том, что замены аминокислот происходили на похожие по химическим свойствам, что также может свидетельствовать о гомологии.
  • Небольшое количество гэпов (относительно общей длины белков)
  • Также в белках есть гомологичные участки, это следует как из гомологичности белков по всей длине, так и из локальных выравниваний, у которых также высокие: вес выравнивания, процент идентичности и процент схожести. Также покрытие (отношение длины выровненной части белка к всей длине белка) составляет > 90%, что говорит о гомологии данных участков.

    В данном конкретном случае локальное выравнивание по сравнению с глобальным менее информативно, потому что из гомологии по всей длине следует гомология в отдельных участках.

    Можно заметить, что какие-то пары букв, сопоставленных в локальном выравнивании, оказались не сопоставлены в глобальном, скорее всего так получилось из-за различий алгоритмов выравниваний, поскольку локальное необходимо для нахождения гомологичных участков.

    Результат применения программ выравнивания к неродственным белкам

    Выравнивания проводились для двух белков с ID: METK_ECOLI (S-adenosylmethionine synthase) и RNHL_BASCU (14.7 kDa ribonuclease H-like protein).

    Таблица 3. Характеристики глобального парного выравнивания пары белков

    Length: 390
    Identity: 34/390 ( 8.7%)
    Similarity: 55/390 (14.1%)
    Gaps: 264/390 (67.7%)
    Score: 41.0
    Indels: 12

    Можно заметить низкий процент идентичности, низкий вес выравнивания и большое количество гэпов, что говорит о негомологии белков.

    Таблица 4. Характеристики локального парного выравнивания пары белков

    Length: 157
    Identity: 33/157 ( 21.0%)
    Similarity: 52/157 (33.1%)
    Gaps: 35/157 (22.3%)
    Score: 45.0
    Indels: 3
    Coverage 1: 39.8%
    Coverage 2: 68.9%

    Характеристики локального выравнивания, такие как процент идентичности > 20%, меньше гэпов, высокие значения покрытия для второго белка говорт о возможном наличии гомологичных участков.

    Вывод: случайно взятые белковые последовательности оказались не гомологичны, но возможно имеют голмологичные участки.

    Множественное выравнивание белков с мнемоникой 'CYSK' и импорт в Jalview

    С помощью: infoseq 'sw:CYSK_*' -only -name -nohead | wc -l можно узнать, что в SWiss-Prot есть 37 последовательностей с мнемоникой 'CYSK' (Cysteine synthase).

    Для проведения множественного выравнивания я взяла 7 организмов с мнемоникой 'CYSK': ECOLI, BACSU, а также STAAR (Staphylococcus aureus (strain MRSA252)), STAAC (Staphylococcus aureus (strain COL)), STAAS (Staphylococcus aureus (strain MSSA476)), STAAN (Staphylococcus aureus (strain N315)), STAAW (Staphylococcus aureus (strain MW2)). Мне стало интересно посмотреть насколько будут отличаться последовательности разных штаммов одной бактерии.

    Выравнивание делалось с помощью Jalview, использовались база данных Uniprot и ID белков.

    Проект Jalview

    Последовательности разных штаммов оказались гомологичны. Они практически не отличаются. Если сравнивать с ECOLI или BACSU, то явно видны отличия, но всё равно белки гомологичные.