Выравнивание последовательностей

Парное выравнивание гомологичных белков

Скачаем с помощью расширенного поиска Uniprot все аннотированные записи штамма К12 кишечной палочки (по запросу: (organism_id:83333) AND (reviewed:true)) и штамма 168 сенной палочки (по запросу: (organism_id:224308) AND (reviewed:true)).

Определим пары с совпадающими мнемониками функции с помощью консольных программ:

cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt

Таблица 1. Глобальное парное выравнивание

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Multifunctional CCA protein* CCA_ECOLI CCA_BACSU 213.5 22.6% 37.5% 129 22
Flagellar hook-associated protein 2 FLID_ECOLI FLID_BACSU 355.0 23.8% 44.7% 68 21
DNA helicase IV HELD_ECOLI HELD_BACSU 193.0 19.1% 30.8% 302 35

Таблица 2. Локальное парное выравнивание

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Multifunctional CCA protein* CCA_ECOLI CCA_BACSU 223.0 24.8% 41.5% 87 20 90.3% 89.4%
Flagellar hook-associated protein 2 FLID_ECOLI FLID_BACSU 364.5 24.4% 45.6% 60 17 96.6% 98.0%
DNA helicase IV HELD_ECOLI HELD_BACSU 207.0 20.1% 32.1% 259 34 95.2% 90.7%

*CCA-adding enzyme для сенной палочки

Все 3 белка вряд ли гомологичны. Участки гомологии не удаётся выделить. Локальное выравнивание хорошо выполнено у FLID.

Выравнивание неродственных белков

Algorithm ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Needle BCP_ECOLI (Peroxiredoxin Bcp) APT_BACSU (Adenine phosphoribosyltransferase) 16.5 9.8% 17.1% 164 9 - -
Water BCP_ECOLI (Peroxiredoxin Bcp) APT_BACSU (Adenine phosphoribosyltransferase) 30.5 28.6% 50.0% 7 2 26.9% 20.6%

Длины белков 156 и 170, гэпов при этом 164. Явно видно отсутствие гомологии. Длина локального выравнивания вообще всего 42. У белков хоть как-то накладываются участки из начала одного и конца другого.

Множественное выравнивание. Jalview

Скачаем список всех вариантов белков с мнемоникой FLID (Flagellar hook-associated protein 2):

infoseq 'sw:FLID_*' -only -name -nohead -out all_flid.txt

Выбранные белки (из 17):

FLID_ECOLI

FLID_BACSU

FLID_HELPY

FLID_AQUAE

FLID_SALTY

FLID_BORBU

FLID_TREPA

Выравниваем с помощью консольной программы muscle:

muscle -align all_flid.fasta -output flid_alignment.fasta

Проект Jalview с выравниванием

Выравнивание странное либо же данные белки не имеют консервативных участков. Сложно по данному выравниванию выделить гомологию.