Выравнивание последовательностей

Глобальное парное выравнивание гомологичных белков

Были созданы два списка с ID аннотированных записей из UniProt, чей ID оканчивается на "_ECOLI" и "_BACSU" соотвественно. Далее с помощью программы (скрипт доступен по ссылке) на языке Python были найдены ID с одинаковой мнемоникой функции в обоих списках. Среди найденных белков были выбраны три и их последовательности были выровнены для обоих организмов. Результаты представлены в таблице 1.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Ribulokinase ARAB_ECOLI ARAB_BACSU 769.0 30.6 48.7 56 12
Pantothenate synthetase PANC_ECOLI PANC_BACSU 544.5 39.9 59.4 7 2
Nitrate/nitrite transporter NarK NARK_ECOLI NARK_BACSU 385.0 23.4 39.9 124 18

Локальное парное выравнивание гомологичных белков

Результаты представлены в таблице 2.
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels % Coverage 1 % Coverage 2
Ribulokinase ARAB_ECOLI ARAB_BACSU 776.0 31.9 50.2 44 9 97.2 95.4
Pantothenate synthetase PANC_ECOLI PANC_BACSU 545.5 40.9 60.0 2 1 98.6 96.9
Nitrate/nitrite transporter NarK NARK_ECOLI NARK_BACSU 387.5 25.8 43.5 81 14 90.3 93.4

Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики глобального парного выравнивания пары неродственных белков
Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Uronate dehydrogenase Pantothenate synthetase URODH_AGRFC PANC_ECOLI 20.0 16.9 23.4 186 19
Таблица 4. Характеристики локального парного выравнивания пары неродственных белков
Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels % Coverage 1 % Coverage 2
Uronate dehydrogenase Pantothenate synthetase URODH_AGRFC PANC_ECOLI 46.5 31.7 36.6 35 4 21.5 25.4
Для обоих выравниваний (глобального и локального) отмечаются относительно низкие веса, не превышающие 50 единиц. В сравнении с весами выравниваний истинно гомологичных последовательностей это ничтожно мало (например, для белков ARAB_ECOLI и ARAB_BACSU вес равен 769 единицам). Также характерные меньшие проценты схожести и тем более индентичности.
Для локального выравнивания отмечаются высокие проценты схожести и идентичности. Данное явление легко объяснить очень малым процентом покрытия.

Множественное выравнивание белков. Импорт в Jalview

Использовалась мнемоника 'ARAB' ('Ribulokinase'). Были найдены 76 белков с такой мнемоникой, из которых выбраны следующие пять (не считая 'ARAB_BACSU' и 'ARAB_ECOLI'):
  • ARAB_STRAT
  • ARAB_STAAR
  • ARAB_SALAR
  • ARAB_SALPA
  • ARAB_SALTI
  • Выравнивание выполнялось путем обработки программой muscle fasta-файла с семью последовательностями. Далее выравнивание для редактирования было импортировано в программу Jalview (проект доступен по ссылке).
    Все нижеописанные данные количественно приведены в таблице 5.
    Для всех семи выравниваний можно выделить консервативные участки, которые практически не менялись в ходе эволюции. Белки ARAB_ECOLI, ARAB_SALAR, ARAB_SALPA, ARAB_SALTI имеют между больше сходных участков между собой, чем с другими белками. Это не означает, что оставшиеся три белка - ARAB_BACSU, ARAB_STAAR и ARAB_STRAT схожи между собой. Напротив, они отличаются в значительной степени (сходство ограничено совпадением наиболее консервативных участков). Интересно, что в последовательности белка ARAB_STRAT вообще преобладают индели (их намного больше, чем собственно аминокислотных остатков).
    Таблица 5. Характеристика множественного выравнивания
    Консервативные участки (столбцы, в которых >= 6 остатков одинаковые) 1, 5-6, 8, 10, 13, 15, 24, 31, 34, 41, 51, 61-62, 64, 67, 87-89, 91, 93, 95-96, 101, 105, 108, 118, 124-126, 128, 130, 134, 152, 154, 158-161, 165, 185, 188-189, 194
    Столбцы схожести ARAB_ECOLI, ARAB_SALAR, ARAB_SALPA, ARAB_SALTI 1-24, 26-36, 37-43, 48-71, 73-103, 105-142, 144-197
    Столбцы инделей ARAB_STRAT 6-26, 37-40, 44-79, 122-133, 140-170, 177-180