Практикум по выравниванию последовательностей белков

Глобальное и локальное парные выравнивания гомологичных белков

В результате глобального и локального парного выравнивания трёх пар последовательностей гомологичных белков из организмов Escherichia coli и Bacillus subtilis были составлены таблицы с основными характеристиками данных выравнивай. Глобальное парное выравнивание (см. таблицу 1) было проведено с помощью программы needle из пакета биоинформатических программ EMBOSS. Локальное парное выравнивание (см. таблицу 2) проводилось с помощью программы water из того же пакета программ.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Biotin synthase BIOB_ECOLI BIOB_BACSU 470.0 28.5 49.1 69 9
Copper-exporting P-type ATPase COPA_ECOLI COPA_BACSU 1488.0 39.9 57.9 94 20
RNA-binding protein Hfq HFQ_ECOLI HFQ_BACSU 157.0 29.1 46.6 31 3
Таблица 2. Характеристики локального парного выравнивания трёх пар белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Biotin synthase BIOB_ECOLI BIOB_BACSU 477.5 35.0 59.9 6 5 84.7 86.3
Copper-exporting P-type ATPase COPA_ECOLI COPA_BACSU 1488.5 40.1 58.1 89 18 99.2 99.3
RNA-binding protein Hfq HFQ_ECOLI HFQ_BACSU 163.0 45.3 73.4 1 1 61.8 87.7

По результатам выдачи обеих программ и анализа характеристик обоих выравниваний, можно сделать несколько выводов:
Во-первых, белок под названием Copper-exporting P-type ATPase из трёх выровненных пар белков с наибольшей вероятностью является гомологичным по всей длине (т.к. имеет наибольший процент Identity и Similarity), однако остальные белки, хотя и с меньшей вероятностью, тоже являются гомологичными (Identity везде больше 25%, а Similarity около 50%).
Во-вторых, все выровненные белки определённо имеют гомологичные участки, ибо Identity во всех случаях составляет не менее 35%, а Similarity — не менее 50%. В случае с белком RNA-binding protein Hfq Similarity вообще превышает 70%, что говорит о том, что данный белок в обоих организмах содержит высококонсервативные участки своей аминокислотной последовательности. Также интересно отметить, что локальное и глобальное выравнивания для белка Copper-exporting P-type ATPase (COPA) практически не отличаются по своим характеристикам, что также подтверждает наше предположение о том, что этот белок с высокой долей вероятности гомологичен по всей длине.
В-третьх, можно заключить, что во всех трёх случаях локальное выравание более информативно по сравнению с глобальным (Identity и Similarity в случае с локальным выраваниванием больше), ибо позволяет с большей точностью определить, гомологичны ли данные белки или нет.

Результат применения программ выравнивания к неродственным белкам

Было проведено глобальное (см. таблицу 3) и локальное (см. таблицу 4) выравнивания пары негомологичных (случайных) белков из вышеупомянутых прокариотических организмов. Характеристики обоих выравниваний приведены в соответствующих таблицах.

Таблица 3. Характеристики глобального парного выравнивания пары случайных белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Lactose operon repressor/Flotillin-like protein FloT LACI_ECOLI FLOT_BACSU 29.5 3.9 7.6 585 5
Таблица 4. Характеристики локального парного выравнивания пары случайных белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Lactose operon repressor/Flotillin-like protein FloT LACI_ECOLI FLOT_BACSU 47.0 21.9 36.0 26 4 30.6 18.1
Исходя из наблюдаемых характеристик выравниваний, нетрудно заметить, что процент Identity и Similarity даже в локальном парном выравнивании весьма мал (первое меньше 25%), что практически однозначно говорит в пользу того, что данные белки являются неродственными. Также можно отметить весьма маленький вес обоих выравниваний, а также сравнительно большое число гэпов относительно выравниваний гомологичных белков.

Множественное выравнивание белков и импорт в Jalview

Для проведения множественного выравнивания аминокислотных последовательностей был выбран белок с мнемоникой HFQ. Полное рекомендованное имя белка: RNA-binding protein Hfq. Всего для таких белков нашлось 400 записей в базе данных Swiss-Prot. Для проведения выравнивания были выбраны, помимо соответствующих белков из ECOLI и BACSU, следующие белки: HFQ_HYDCU, HFQ_ACIET, HFQ_RUMCH, HFQ_SINFN, HFQ_RHOPA.
Само выравнивание осуществлялось следующим образом: сначала был составлен текстовый файл, содержащий идентификаторы записей выбранных белко из Swiss-Prot. Затем формат данного файла был изменён на .fasta при помощи программы seqret, после чего было проведено собственно само выравнивание с помощью программы muscle. Была использована следующая команада:

muscle -align hfq.fasta -output hfq_alignment.fasta

Затем результаты выравнивания были импортированы в программу Jalview. Ссылка на проект. Судя по результатам множественного выравнивания, а именно по наличию относительно большого количество гомологичных участков, можно сказать, что все 7 последовательностей белков хорошо выровнялись. Гомологичными являются участки со следующими координатами (n — номер аминокислоты в выравнивании): 1, 8-9, 11-13, 18, 26, 28, 30-31, 34, 36, 41-42, 44, 47-48, 55, 57-64 (наиболее длинный гомологичный участок выравнивания), 67. С высокой долей вероятности все 7 выровненных белков являются гомологичными.