Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
Lipoyl synthase | LIPA_ ECOLI |
LIPA_ BACSU |
747.0 | 46.5% | 59.0% | 10.7% | 5 |
D-3-phospho glycerate dehydro genas |
SERA_ ECOLI |
SERA_ BACSU |
461.0 | 21.9% | 39.1% | 29.4% | 10 |
Ribulo kinase |
ARAB_ ECOLI |
ARAB_ BACSU |
769.0 | 30.6% | 48.7% | 9.5% | 14 |
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Cover 1 | Cover 2 |
Lipoyl synthase | LIPA_ ECOLI |
LIPA_ BACSU |
748.0 | 52.8% | 67.1% | 3 | 3 | 88.47% | 94.97% |
D-3-phospho glycerate dehydro genas |
SERA_ ECOLI |
SERA_ BACSU |
465.5 | 23.2% | 40.6% | 153 | 8 | 88.70% | 94.67% |
Ribulo kinase |
ARAB_ ECOLI |
ARAB_ BACSU |
776.0 | 31.9% | 50.2% | 44 | 12 | 97.17% | 95.36% |
Для того чтобы провести выравнивание заведомо неродственного белка я решил выбрать последовательности, которые не встречаются одновременно в протеоме E. Coli и Bacillus subtilis. (Команда: cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -u > not_common_mnems.txt) Я сделал выравнивание белков SSUE_ecoli (FMN reductase) и RESC_bacsu (Cytochrome c biogenesis protein). Вес неравенства получился очень низким (11.0 глобальное, 34.5 локальное). Длина выровненной части последовательности очень мала по сравнению с длиной самой последовательности. Площадь покрытия для SSUE_ECOLI составляет всего 39,79%, а для RESC_bacsu 19,95%. Процент идентичности по water составляет 23.3%, что позволяет предположить, что последовательности всё-таки гомологичны, хотя и имеют достаточно сильные различия в структуре.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Different | SSUE_ ecoli |
RESC_ bacsu |
11.0 | 0.7% | 1.0% | 562 | 3 | ||
Different | SSUE_ ecoli |
RESC_ bacsu |
34.5 | 23.3% | 40.7% | 16 | 5 | 39.79% | 19.95% |
Я решил использовать мнемонику LIPA (Lipoyl synthase). Всего организмов с такой мнемоникой нашлось 580 (infoseq 'sw:LIPA_*' -only -name -nohead -out LIPA.txt; wc -l LIPA.txt). Для выравнивания были выбраны белки LIPA_SODAL, LIPA_ALKEH, LIPA_SACS2, LIPA_AROAE, LIPA_RHIWR. Выравнивание делалось с помощью UniProt. Анализируя результаты выравнивания, я могу предположить, что белки гомологичны, но их схожесть не очень велика. Особенно сильно отличается от других белок LIPA_SODAL. У выравнивания отсутствует чётко выраженная структура. Выражено консервативные участки лежат в пределах 102-118, 122-147, 186-203, 245-254, 265-299, 307-356, 365-374, 404-415, 466-477. Из них наиболее консервативны 105-117, 187-199, 318-321. Наименее консервативные диапазоны 0-39, 51-66, 81-95, 204-231, 375-403, 416-455. Главным образом, несовпадения на этих участках происходят из-за первого белка LIPA_SODAL, который отличится избыточным количеством аминокислот по сравнению со своими аналогами, что создаёт большие по размеру индели. Прочие белки обладают значительно большей схожестью друг с другом и их можно назвать гомологичными.