Protein Name
ID 1
ID 2
Score
% Identity
% Similarity
Gaps
Indels
Lipoyl synthase
LIPA_
ECOLILIPA_
BACSU747.0
46.5%
59.0%
10.7%
5
D-3-phospho
glycerate dehydro
genasSERA_
ECOLISERA_
BACSU461.0
21.9%
39.1%
29.4%
10
Ribulo
kinaseARAB_
ECOLIARAB_
BACSU769.0
30.6%
48.7%
9.5%
14
Protein Name
ID 1
ID 2
Score
% Identity
% Similarity
Gaps
Indels
Cover 1
Cover 2
Lipoyl synthase
LIPA_
ECOLILIPA_
BACSU748.0
52.8%
67.1%
3
3
88.47%
94.97%
D-3-phospho
glycerate dehydro
genasSERA_
ECOLISERA_
BACSU465.5
23.2%
40.6%
153
8
88.70%
94.67%
Ribulo
kinaseARAB_
ECOLIARAB_
BACSU776.0
31.9%
50.2%
44
12
97.17%
95.36%
Для того чтобы провести выравнивание заведомо неродственного белка я решил выбрать последовательности, которые не встречаются одновременно в протеоме E. Coli и Bacillus subtilis. (Команда: cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -u > not_common_mnems.txt) Я сделал выравнивание белков SSUE_ecoli (FMN reductase) и RESC_bacsu (Cytochrome c biogenesis protein). Вес неравенства получился очень низким (11.0 глобальное, 34.5 локальное). Длина выровненной части последовательности очень мала по сравнению с длиной самой последовательности. Площадь покрытия для SSUE_ECOLI составляет всего 39,79%, а для RESC_bacsu 19,95%. Процент идентичности по water составляет 23.3%, что позволяет предположить, что последовательности всё-таки гомологичны, хотя и имеют достаточно сильные различия в структуре.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Different | SSUE_ ecoli |
RESC_ bacsu |
11.0 | 0.7% | 1.0% | 562 | 3 | ||
Different | SSUE_ ecoli |
RESC_ bacsu |
34.5 | 23.3% | 40.7% | 16 | 5 | 39.79% | 19.95% |
Я решил использовать мнемонику LIPA (Lipoyl synthase). Всего организмов с такой мнемоникой нашлось 580 (infoseq 'sw:LIPA_*' -only -name -nohead -out LIPA.txt; wc -l LIPA.txt). Для выравнивания были выбраны белки LIPA_SODAL, LIPA_ALKEH, LIPA_SACS2, LIPA_AROAE, LIPA_RHIWR. Выравнивание делалось с помощью UniProt. Анализируя результаты выравнивания, я могу предположить, что белки гомологичны, но их схожесть не очень велика. Особенно сильно отличается от других белок LIPA_SODAL. У выравнивания отсутствует чётко выраженная структура. Выражено консервативные участки лежат в пределах 102-118, 122-147, 186-203, 245-254, 265-299, 307-356, 365-374, 404-415, 466-477. Из них наиболее консервативны 105-117, 187-199, 318-321. Наименее консервативные диапазоны 0-39, 51-66, 81-95, 204-231, 375-403, 416-455. Главным образом, несовпадения на этих участках происходят из-за первого белка LIPA_SODAL, который отличится избыточным количеством аминокислот по сравнению со своими аналогами, что создаёт большие по размеру индели. Прочие белки обладают значительно большей схожестью друг с другом и их можно назвать гомологичными.