Скрипт на Python для нахождения пар белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции Python
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Acetylornithine aminotransferase | ARGD_ECOLI | ARGD_BACSU | 721.0 | 37.9% | 54.8% | 27 | 7 |
Cysteine synthase | CYSK_ECOLI | CYSK_BACSU | 766.0 | 51.5% | 66.6% | 33 | 11 |
1-(5-phosphoribosyl)-5-[(5-phosphoribosylamino)methylideneamino] imidazole-4-carboxamide isomerase | HIS4_ECOLI | HIS4_BACSU | 374.0 | 34.9% | 54.8% | 14 | 5 |
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Acetylornithine aminotransferase | ARGD_ECOLI | ARGD_BACSU | 736.0 | 41.3% | 59.2% | 12 | 4 | 91.4% | 91.2% |
Cysteine synthase | CYSK_ECOLI | CYSK_BACSU | 775.5 | 54.0% | 69.3% | 21 | 8 | 92.0% | 93.2% |
1-(5-phosphoribosyl)-5-[(5-phosphoribosylamino)methylideneamino] imidazole-4-carboxamide isomerase | HIS4_ECOLI | HIS4_BACSU | 382.0 | 36.5% | 56.8% | 10 | 4 | 95.9% | 93.1% |
Данные белки скорее всего можно назвать гомологичными по всей длине, так как они имеют:
Также в белках есть гомологичные участки, это следует как из гомологичности белков по всей длине, так и из локальных выравниваний, у которых также высокие: вес выравнивания, процент идентичности и процент схожести. Также покрытие (отношение длины выровненной части белка к всей длине белка) составляет > 90%, что говорит о гомологии данных участков.
В данном конкретном случае локальное выравнивание по сравнению с глобальным менее информативно, потому что из гомологии по всей длине следует гомология в отдельных участках.
Можно заметить, что какие-то пары букв, сопоставленных в локальном выравнивании, оказались не сопоставлены в глобальном, скорее всего так получилось из-за различий алгоритмов выравниваний, поскольку локальное необходимо для нахождения гомологичных участков.
Выравнивания проводились для двух белков с ID: METK_ECOLI (S-adenosylmethionine synthase) и RNHL_BASCU (14.7 kDa ribonuclease H-like protein).
Length: | 390 |
---|---|
Identity: | 34/390 ( 8.7%) |
Similarity: | 55/390 (14.1%) |
Gaps: | 264/390 (67.7%) |
Score: | 41.0 |
Indels: | 12 |
Можно заметить низкий процент идентичности, низкий вес выравнивания и большое количество гэпов, что говорит о негомологии белков.
Length: | 157 |
---|---|
Identity: | 33/157 ( 21.0%) |
Similarity: | 52/157 (33.1%) |
Gaps: | 35/157 (22.3%) |
Score: | 45.0 |
Indels: | 3 |
Coverage 1: | 39.8% |
Coverage 2: | 68.9% |
Характеристики локального выравнивания, такие как процент идентичности > 20%, меньше гэпов, высокие значения покрытия для второго белка говорт о возможном наличии гомологичных участков.
Вывод: случайно взятые белковые последовательности оказались не гомологичны, но возможно имеют голмологичные участки.
С помощью: infoseq 'sw:CYSK_*' -only -name -nohead | wc -l можно узнать, что в SWiss-Prot есть 37 последовательностей с мнемоникой 'CYSK' (Cysteine synthase).
Для проведения множественного выравнивания я взяла 7 организмов с мнемоникой 'CYSK': ECOLI, BACSU, а также STAAR (Staphylococcus aureus (strain MRSA252)), STAAC (Staphylococcus aureus (strain COL)), STAAS (Staphylococcus aureus (strain MSSA476)), STAAN (Staphylococcus aureus (strain N315)), STAAW (Staphylococcus aureus (strain MW2)). Мне стало интересно посмотреть насколько будут отличаться последовательности разных штаммов одной бактерии.
Выравнивание делалось с помощью Jalview, использовались база данных Uniprot и ID белков.
Последовательности разных штаммов оказались гомологичны. Они практически не отличаются. Если сравнивать с ECOLI или BACSU, то явно видны отличия, но всё равно белки гомологичные.