В работе требовалось изучить процесс глобального и локального выравнивания родственных и неродственных белков на основе их аминокислотной последовательности, построить множественное выравнивание с помощью программы Jalview.
В этой части работы было необходимо найти белки Escherichia coli и Bacillus subtilis с одинаковой мнемоникой функции и провести
глобальное выравнивание. Для
этого с сайта Uniprot были скачаны списки идентификаторов белков в Swiss-prot. Затем эти списки были объединены и отсортированы
с помощью кода Python, программа создает фаил common_mnems.txt, из которого выбираем три пары.
Затем с помощью команды needle было произведено выравнивание 3 пар белков с одинаковой мнемоникой функций, но принадлежащих разным организмам.
Пример использования команды needle:
needle sw:PABA_ECOLI sw:PABA_BACSU PABA.needle -auto
Результаты представлены в таблице 1.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков | |||||||
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels |
Sulfur carrier protein ThiS [ссылка] | THIS_BACSU | THIS_ECOLI | 42 | 20.9% | 44.8% | 2 | 2 |
DNA topoisomerase 1[1][ссылка] | TOP1_BASCU | TOP1_ECOLI | 1353.5 | 34.7% | 47.8% | 214 | 16 |
Aminodeoxychorismate synthase component 2 [ссылка] | PABA_BACSU | PABA_ECOLI | 640.0 | 58.2% | 77.8% | 7 | 1 |
В этой части работы необходимо было сделать локальное выравнивание тех же белков при помощи программы water.
Процент покрытия вычислялся вручную как частное длины части белка участвующей в выравнивании( вычислялось по координатам начала и конца последовательности)
и длины всего белка(данные можно найти в UniProt).
Пример использования утилиты water
water sw:top1_ECOLI sw:top1_BACSU TOP1.water -auto
Результаты представлены в таблице 2.
Таблица 2. Результаты локального выравнивания. | |||||||
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels |
Sulfur carrier protein ThiS [ссылка] | THIS_BACSU | THIS_ECOLI | 45.0 | 22.0% | 48.0% | 0 | 0 |
DNA topoisomerase 1 [ссылка] | TOP1_BACSU | TOP1_ECOLI | 1357.0 | 40.2% | 55.4% | 94 | 10 |
Aminodeoxychorismate synthase component 2 [ссылка] | PABA_BACSU | PABA_ECOLI | 641.0 | 61.1% | 81.6% | 0 | 0 |
Coverage 1 | Coverage 2 |
75.75% | 75.75% |
99.42% | 84.97% |
95.36% | 98.93% |
Для выравнивания негомологичных белков были выбраны Аргининосукцинат синтаза в Escherichia coli и Белок деления клеток ZapA в Bacillus subtilis. Белки различаются по функции, поэтому не предполагается, что они могут быть гомологичны. Результаты использования программ needle и water представлены в Таблице 3.
Таблица 3. Результаты выравнивания негомологичных белков | |||||||
Тип выравнивания | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels |
Глобальное [ссылка] | ASSY_ECOLI | ZAPA_BACSU | 10.0 | 0.6% | 1.4% | 473 | 2 |
Локальное [ссылка] | ASSY_ECOLI | ZAPA_BACSU | 38 | 29.3% | 48.8% | 4 | 2 |
Coverage 1 | Coverage 2 |
- | - |
8.27% | 48.23% |
Можно заметить, что у выравниваний маленький вес(сравнить с трехзначными значениями для гомологичных белков примерно той же длины в 1 части работы).
Также низкий процент Identity и Similarity. Инделей мало, но количество гэпов очень велико.
В локальном выравнивании наблюдаются те же особенности, к тому же процент покрытия очень мал(для сравнения - в гомологичных последовательностях, как было
показано ранее, процент покрытия приблизительно равен 90)
Все эти признаки указывают на то, что белки не являются родственными.
Для множественного выравнивания был выбрана Топоизомераза1 - важный фермент, который встречается у эукариот, прокариот и вирусов, а значит должен быть достаточно консервативныым. Для поиска всех идентификаторов с мнемоникой TOP1 была использована команда:
infoseq -name -only -auto sw:TOP1_* > TOP1_file.txt
Всего было обнаружено 85 организмов, содержащих данный фермент
[ссылка на список]
Затем было выбрано 7 белков для множественного выравнивания (ID белков являются ссылками на страницы белков в UniProt):
TOP1_ECOLI - белок, принадлежащий Escherichia coli (strain K12)
TOP1_MOUSE - белок, принадлежащий Mus musculus (Mouse)
TOP1_HUMAN - белок, принадлежащий Homo sapiens (Human)
TOP1_ZYMMO - белок, принадлежащий Zymomonas mobilis subsp. mobilis (strain ATCC 31821 / ZM4 / CP4)
TOP1_BACSU - белок, принадлежащий Bacillus subtilis (strain 168)
TOP1_STAAS - белок, принадлежащий Staphylococcus aureus (strain MSSA476)
TOP1_VACCC - белок, принадлежащий Vaccinia virus (strain Copenhagen) (VACV)
Множественное выравнивание было построено с помощью опции Align в UniProt. Затем из базы данных был скачан fasta-файл с выравниванием. Ссылку на проект
Jalview можно найти по ссылке
Можно сказать, что белки выровнялись не идеально, но вполне ожидаемо.
Есть полностью консервативные участки, например участок 114-116. Наиболее близкими оказались белки у человека и мыши - их идентичность составляет 97%, таже очень близки оказались последовательности Zymomonas mobilis subsp. mobilis,Bacillus subtilis (strain 168), Staphylococcus aureus (strain MSSA476), у E.Coli же наблюдаются больше различий с другими прокариотами. Консервативные участки прокариот: 5-22, 111-122,195-206, 289-333. Вирусная топоизомераза имеет очень короткую длину, сравнивая ее с другими вряд ли можно сделать вывод о гомологичности(очень много гэпов).
Судя по одинаковой функции белков в организмах, а также по большому количеству схожих участков в аминокислотной последовательности, мы можем заключить, что белки являются гомологичными, но в последовательностях млекопитающих произошли протяженные делеции в спавнении с прокариотами, наиболее протяженныеc 297-359, 118-270.
В предыдущей работе был изучен белок 2-hydroxy-6-oxo-6-phenylhexa-2,4-dienoate hydrolaseBPHD_PARXL. В этой части работы производится выравнивание с его предполагаемым гомологом BPHD_PSEFK, белком бактерии Pseudomonas. Было произведено локальное и глобальное выравнивание белков. Результаты представлены в таблице 4
Таблица 4. Результаты выравнивания предположительно гомологичных белков | |||||||||
Тип выравнивания | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage 1 | Coverage 2 |
Глобальное [ссылка] | BPHD_PARXL | BPHD_PSEFK | 1479.0 | 97.2% | 98.3% | 0 | 0 | - | - |
Локальное [ссылка] | BPHD_PARXL | BPHD_PSEFK | 1268.0 | 97.2% | 98.3% | 0 | 0 | 100.0% | 100.0% |
Pезультаты локального и глобального выравнивания совпадают, а покрытие последовательностей равно 100%. Из этого
можно сделать вывод, что локальное и глобальное выравнивание, в сущности, есть одно и то же выравнивание.
Очень высокие показатели идентичности, отсутствие гэпов, большой вес выравнивания позволяют заключить, что данные белки являются
гомологами. Из 286 а.о. в восьми позициях наблюдаются замены, причем в двух лейцин заменен на изолейцин, в остальных также аминокислоты схожи по свойствам (Quality не меньше 5).