Выравнивания
Глобальное парное выравнивание гомологичных белков
Мы скачали списки белков Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168) с помощью команды bash:
infoseq 'sw:*_BACSU' -only -name -nohead -out bacsu.txt
infoseq 'sw:*_ECOLI' -only -name -nohead -out ecoli.txtи объединили списки:
cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common.txt
Таблица 1. Глобальное парное выравнивание
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Probable galactarate dehydratase | GARD_ECOLI | GARD_BACSU | 1834.0 | 67.1 | 80.1 | 13 | 3 |
Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 990.0 | 42.3 | 61.9 | 43 | 7 |
Chemotaxis protein methyltransferase | CHER_ECOLI | CHER_BACSU | 291.5 | 26.5 | 41.2 | 70 | 9 |
Таблица 2. Локальное парное выравнивание
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage1% | Coverage2% |
---|---|---|---|---|---|---|---|---|---|
Probable galactarate dehydratase | GARD_ECOLI | GARD_BACSU | 1836.0 | 67.5 | 80.7 | 13 | 3 | 98.9 | 98.8 |
Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 994.0 | 43.6 | 63.5 | 33 | 7 | 97.2 | 98.4 |
Chemotaxis protein methyltransferase | CHER_ECOLI | CHER_BACSU | 306.0 | 31.9 | 48.8 | 30 | 8 | 82.5 | 89.8 |
Мы нашли 3 белка разной степени схожести. Первые 2 точно гомологичны. Третий не очень, но скорее всего тоже.
Почему ген дегидротазы галактарата такой консервативный? Соли и эфиры слизевой кислоты - галактаровой кислоты - называют галактаратами. При физиологических условиях в клетке она нерастворима. Она может хелатировать катионы металлов, защищая клетку от них или транспортируя их для участия в реакции в качестве кофактора. Галактарат дегидротаза превращает галактарат - производное D-галактуроновой кислоты - в 5-дегидро-4-дезокси-D-глюкарат с выделением воды (дегидратация). Продукты реакции могут участвовать в синтезе других соединений, например, пирувата, который участвует в цикле Кребса, что делает фермент важным участником метаболических путей. Также можно предположить, что этот ген был получен путём горизонтального переноса или из-за специфичности субстрата обладает довольно большой консервативностью.
Неродственное выравнивание
Algorithm | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage1% | Coverage2% |
---|---|---|---|---|---|---|---|---|---|
Needle | SUFA_ECOLI (Iron-sulfur cluster assembly protein SufA) | AMIN_BACSU (Amicoumacin kinase) | 16.5 | 1.6 | 2.0 | 442 | 3 | - | - |
Water | SUFA_ECOLI (Iron-sulfur cluster assembly protein SufA) | AMIN_BACSU (Amicoumacin kinase) | 33.0 | 62.5 | 75.0 | 0 | 0 | 6.6 | 2.4 |
Удaчные белки мы нашли, первый длиной 122, другой 336, а одинаковая часть у них длиной 8 аминокислот. Здесь локальное выравнивание очень сильно отличается от глобального.
Множественное выравнивание белков
infoseq 'sw:CHER_*' -only -name -nohead -out vse.txt
Белок - Chemotaxis protein methyltransferase. Нашлось 16 организмов.
Выбрали эти: CHER_CHAGB CHER_VIBPA CHER_LISMO CHER_HALH5 CHER_RHIEC CHER_ECOLI CHER_BACSU
Основные участки гомологии находятся на промежутках: 20-50 ; 69-148 (участок 145-148 высоко консервативен) ; 163-183 ; 236- 247 ; 266-278 ; 301-362 ; 373- 395 (376-383 высоко консервативен); 501-506 ; 575-585 ; 592-594. В общем участки гомологии равномерно распределены по последовательности. Наиболее схожие участки, скорее всего являются частями активного центра или зоны связывания субстрата.
Очень заметно, что белок с мнемоникой CHER_CHAGB живёт своей непохожей жизнью со своей непохожей последовательностью, из-за которой в выравнивании Jalview поставил очень много гэпов. А всё потому что это Q2HEW7 Transcription factor cheR {ECO:0000303|PubMed:33622536} (Chaetoglobosin A biosynthesis cluster protein R {ECO:0000303|PubMed:33622536}), то есть не Chemotaxis protein methyltransferase как у шести других. Вообще этот белок выделен из вида грибов-аскомицетов - хето́мия шарови́дного(лат. Chaetómium globósum). Хаэтоглобозины, представленные хаэтоглобозином А, являются микотоксинами, продуцируемыми различными грибами, включая наш Chaetomium. Этот белок мнемоники CHER является транскрипционным фактором, частью кластера генов, которые опосредуют биосинтез хаэтоглобозина А, который обладает уникальной ингибирующей активностью против полимеризации актина в клетках млекопитающих.


Почему белки имеют одинаковую мнемонику мне не понятно, ведь белки разные и по локализации, и по функции. Может быть мнемоника связана с названием вида, но как будто она должна быть уникальной или хотя бы не перекликаться между прокариотами и эукариотами. Может быть фактор транскрипции тоже связан с метилированием связанных с мембраной метил-акцепторных белков.
Файл с выравниванием