Выравнивание последовательностей белка

В работе требовалось изучить процесс глобального и локального выравнивания родственных и неродственных белков на основе их аминокислотной последовательности, построить множественное выравнивание с помощью программы Jalview.

Глобальное парное выравнивание гомологичных белков

В этой части работы было необходимо найти белки Escherichia coli и Bacillus subtilis с одинаковой мнемоникой функции и провести глобальное выравнивание. Для этого с сайта Uniprot были скачаны списки идентификаторов белков в Swiss-prot. Затем эти списки были объединены и отсортированы с помощью кода Python, программа создает фаил common_mnems.txt, из которого выбираем три пары. Затем с помощью команды needle было произведено выравнивание 3 пар белков с одинаковой мнемоникой функций, но принадлежащих разным организмам.

Пример использования команды needle:
needle sw:PABA_ECOLI sw:PABA_BACSU PABA.needle -auto

Результаты представлены в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels
Sulfur carrier protein ThiS [ссылка] THIS_BACSU THIS_ECOLI 42 20.9% 44.8% 2 2
DNA topoisomerase 1[1][ссылка] TOP1_BASCU TOP1_ECOLI 1353.5 34.7% 47.8% 214 16
Aminodeoxychorismate synthase component 2 [ссылка] PABA_BACSU PABA_ECOLI 640.0 58.2% 77.8% 7 1

Локальное парное выравнивание гомологичных белков

В этой части работы необходимо было сделать локальное выравнивание тех же белков при помощи программы water. Процент покрытия вычислялся вручную как частное длины части белка участвующей в выравнивании( вычислялось по координатам начала и конца последовательности) и длины всего белка(данные можно найти в UniProt).
Пример использования утилиты water
water sw:top1_ECOLI sw:top1_BACSU TOP1.water -auto
Результаты представлены в таблице 2.

Таблица 2. Результаты локального выравнивания.
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels
Sulfur carrier protein ThiS [ссылка] THIS_BACSU THIS_ECOLI 45.0 22.0% 48.0% 0 0
DNA topoisomerase 1 [ссылка] TOP1_BACSU TOP1_ECOLI 1357.0 40.2% 55.4% 94 10
Aminodeoxychorismate synthase component 2 [ссылка] PABA_BACSU PABA_ECOLI 641.0 61.1% 81.6% 0 0

Coverage 1 Coverage 2
75.75% 75.75%
99.42% 84.97%
95.36% 98.93%

Результат применения программ выравнивания к неродственным белкам

Для выравнивания негомологичных белков были выбраны Аргининосукцинат синтаза в Escherichia coli и Белок деления клеток ZapA в Bacillus subtilis. Белки различаются по функции, поэтому не предполагается, что они могут быть гомологичны. Результаты использования программ needle и water представлены в Таблице 3.

Таблица 3. Результаты выравнивания негомологичных белков
Тип выравнивания ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels
Глобальное [ссылка] ASSY_ECOLI ZAPA_BACSU 10.0 0.6% 1.4% 473 2
Локальное [ссылка] ASSY_ECOLI ZAPA_BACSU 38 29.3% 48.8% 4 2

Coverage 1 Coverage 2
- -
8.27% 48.23%

Можно заметить, что у выравниваний маленький вес(сравнить с трехзначными значениями для гомологичных белков примерно той же длины в 1 части работы). Также низкий процент Identity и Similarity. Инделей мало, но количество гэпов очень велико. В локальном выравнивании наблюдаются те же особенности, к тому же процент покрытия очень мал(для сравнения - в гомологичных последовательностях, как было показано ранее, процент покрытия приблизительно равен 90)
Все эти признаки указывают на то, что белки не являются родственными.

Множественное выравнивание белков

Для множественного выравнивания был выбрана Топоизомераза1 - важный фермент, который встречается у эукариот, прокариот и вирусов, а значит должен быть достаточно консервативныым. Для поиска всех идентификаторов с мнемоникой TOP1 была использована команда:

infoseq -name -only -auto sw:TOP1_* > TOP1_file.txt

Всего было обнаружено 85 организмов, содержащих данный фермент [ссылка на список] Затем было выбрано 7 белков для множественного выравнивания (ID белков являются ссылками на страницы белков в UniProt):
TOP1_ECOLI - белок, принадлежащий Escherichia coli (strain K12)
TOP1_MOUSE - белок, принадлежащий Mus musculus (Mouse)
TOP1_HUMAN - белок, принадлежащий Homo sapiens (Human)
TOP1_ZYMMO - белок, принадлежащий Zymomonas mobilis subsp. mobilis (strain ATCC 31821 / ZM4 / CP4)
TOP1_BACSU - белок, принадлежащий Bacillus subtilis (strain 168)
TOP1_STAAS - белок, принадлежащий Staphylococcus aureus (strain MSSA476)
TOP1_VACCC - белок, принадлежащий Vaccinia virus (strain Copenhagen) (VACV)
Множественное выравнивание было построено с помощью опции Align в UniProt. Затем из базы данных был скачан fasta-файл с выравниванием. Ссылку на проект Jalview можно найти по ссылке

Выравнивание
Рис.1 Множественное выравнивание в программе Jalview. Раскраска по проценту идентичности.

Можно сказать, что белки выровнялись не идеально, но вполне ожидаемо. Есть полностью консервативные участки, например участок 114-116. Наиболее близкими оказались белки у человека и мыши - их идентичность составляет 97%, таже очень близки оказались последовательности Zymomonas mobilis subsp. mobilis,Bacillus subtilis (strain 168), Staphylococcus aureus (strain MSSA476), у E.Coli же наблюдаются больше различий с другими прокариотами. Консервативные участки прокариот: 5-22, 111-122,195-206, 289-333. Вирусная топоизомераза имеет очень короткую длину, сравнивая ее с другими вряд ли можно сделать вывод о гомологичности(очень много гэпов).
Судя по одинаковой функции белков в организмах, а также по большому количеству схожих участков в аминокислотной последовательности, мы можем заключить, что белки являются гомологичными, но в последовательностях млекопитающих произошли протяженные делеции в спавнении с прокариотами, наиболее протяженныеc 297-359, 118-270.

Выравнивание своего белка с его гомологом

В предыдущей работе был изучен белок 2-hydroxy-6-oxo-6-phenylhexa-2,4-dienoate hydrolaseBPHD_PARXL. В этой части работы производится выравнивание с его предполагаемым гомологом BPHD_PSEFK, белком бактерии Pseudomonas. Было произведено локальное и глобальное выравнивание белков. Результаты представлены в таблице 4

Таблица 4. Результаты выравнивания предположительно гомологичных белков
Тип выравнивания ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels Coverage 1 Coverage 2
Глобальное [ссылка] BPHD_PARXL BPHD_PSEFK 1479.0 97.2% 98.3% 0 0 - -
Локальное [ссылка] BPHD_PARXL BPHD_PSEFK 1268.0 97.2% 98.3% 0 0 100.0% 100.0%

Выравнивание

Pезультаты локального и глобального выравнивания совпадают, а покрытие последовательностей равно 100%. Из этого можно сделать вывод, что локальное и глобальное выравнивание, в сущности, есть одно и то же выравнивание.
Очень высокие показатели идентичности, отсутствие гэпов, большой вес выравнивания позволяют заключить, что данные белки являются гомологами. Из 286 а.о. в восьми позициях наблюдаются замены, причем в двух лейцин заменен на изолейцин, в остальных также аминокислоты схожи по свойствам (Quality не меньше 5).