Парное выравнивание гомологичных белков
Скачаем с помощью расширенного поиска Uniprot все аннотированные записи штамма К12 кишечной палочки (по запросу: (organism_id:83333) AND (reviewed:true)) и штамма 168 сенной палочки (по запросу: (organism_id:224308) AND (reviewed:true)).
Определим пары с совпадающими мнемониками функции с помощью консольных программ:
cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt
Таблица 1. Глобальное парное выравнивание
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Multifunctional CCA protein* | CCA_ECOLI | CCA_BACSU | 213.5 | 22.6% | 37.5% | 129 | 22 |
Flagellar hook-associated protein 2 | FLID_ECOLI | FLID_BACSU | 355.0 | 23.8% | 44.7% | 68 | 21 |
DNA helicase IV | HELD_ECOLI | HELD_BACSU | 193.0 | 19.1% | 30.8% | 302 | 35 |
Таблица 2. Локальное парное выравнивание
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Multifunctional CCA protein* | CCA_ECOLI | CCA_BACSU | 223.0 | 24.8% | 41.5% | 87 | 20 | 90.3% | 89.4% |
Flagellar hook-associated protein 2 | FLID_ECOLI | FLID_BACSU | 364.5 | 24.4% | 45.6% | 60 | 17 | 96.6% | 98.0% |
DNA helicase IV | HELD_ECOLI | HELD_BACSU | 207.0 | 20.1% | 32.1% | 259 | 34 | 95.2% | 90.7% |
*CCA-adding enzyme для сенной палочки
Все 3 белка вряд ли гомологичны. Участки гомологии не удаётся выделить. Локальное выравнивание хорошо выполнено у FLID.
Выравнивание неродственных белков
Algorithm | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Needle | BCP_ECOLI (Peroxiredoxin Bcp) | APT_BACSU (Adenine phosphoribosyltransferase) | 16.5 | 9.8% | 17.1% | 164 | 9 | - | - |
Water | BCP_ECOLI (Peroxiredoxin Bcp) | APT_BACSU (Adenine phosphoribosyltransferase) | 30.5 | 28.6% | 50.0% | 7 | 2 | 26.9% | 20.6% |
Длины белков 156 и 170, гэпов при этом 164. Явно видно отсутствие гомологии. Длина локального выравнивания вообще всего 42. У белков хоть как-то накладываются участки из начала одного и конца другого.
Множественное выравнивание. Jalview
Скачаем список всех вариантов белков с мнемоникой FLID (Flagellar hook-associated protein 2):
infoseq 'sw:FLID_*' -only -name -nohead -out all_flid.txt
Выбранные белки (из 17):
FLID_ECOLI
FLID_BACSU
FLID_HELPY
FLID_AQUAE
FLID_SALTY
FLID_BORBU
FLID_TREPA
Выравниваем с помощью консольной программы muscle:
muscle -align all_flid.fasta -output flid_alignment.fasta
Проект Jalview с выравниваниемВыравнивание странное либо же данные белки не имеют консервативных участков. Сложно по данному выравниванию выделить гомологию.