Сравнение глобального и локального выравниваний ортологичных белков
Из базы данных Swiss-Prot были скачаны идентификаторы всех записей для Escherichia coli K12 и Bacillus subtilis 168. Для дальнейшего анализа были взяты белки c мнемониками: QUEA - S-аденозилметионин:тРНК рибозилтрансфераза-изомераза, фермент, участвующий в биосинтезе кеуозина - модифицированного азотистого основания, встречающегося в первой позиции антикодона у бактерий; AMPA - предполагаемая цитозольная аминопептидаза; MIND - белок, определяющий положение септы, участвующий в делении и образовании спор у бактерий. В Таблице 1 приведены характеристики глобальных парных выравниваний по алгоритму Нидлмана-Вунша для данных белков.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
S-adenosylmethionine:tRNA ribosyltransferase-isomerase | QUEA_ECOLI | QUEA_BACSU | 768.5 | 45.2 | 64.0 | 24 | 10 |
Probable cytosol aminopeptidase | AMPA_ECOLI | AMPA_BACSU | 720.5 | 34.2 | 52.8 | 31 | 11 |
Septum site-determining protein MinD | MIND_ECOLI | MIND_BACSU | 598.5 | 43.1 | 66.3 | 14 | 6 |
Также для этих белков были проведены локальные парные выравнивания по алгоритму Смита-Ватермана, характеристики которых приведены в Таблице 2.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
S-adenosylmethionine:tRNA ribosyltransferase-isomerase | QUEA_ECOLI | QUEA_BACSU | 769.5 | 46.8 | 66.4 | 12 | 9 | 99.4% | 99.7% |
Probable cytosol aminopeptidase | AMPA_ECOLI | AMPA_BACSU | 723.5 | 35.0 | 54.0 | 17 | 8 | 97.6% | 98.0% |
Septum site-determining protein MinD | MIND_ECOLI | MIND_BACSU | 601.5 | 43.6 | 67 | 12 | 5 | 99.6% | 98.9% |
Как можно видеть, для всех трех белков выравнивания данными двумя алгоритмами значительно различаются только по числу гэпов и инделей. Также для всех трех выравниваний по алгоритму Смита-Ватермана характерно высокое покрытие, что скорее всего говорит о том, что белки гомологичны по всей длине, поэтому локальное выравнивание в данном случае не будет более информативным, чем глобальное.
Глобальное и локальное выравнивание негомологичных белков
Далее были проведены выравнивания двух негомологичных белков Escherichia coli K12 и Bacillus subtilis 168 по алгоритмам Нидлмана-Вунша и Смита-Ватермана (см. S1). От Escherichia coli K12 была взята NAD-киназа (ID: NADK_ECOLI), для Bacillus subtilis 168 - субтилизин E (ID: SUBT_BACSU). И глобальное, и локальное выравнивание (Табл. 3) показали весьма низкие значения идентичности и сходства, что вполне ожидаемо, учитывая, что данные белки негомологичны и не сходны по выполняемой функции. Покрытие в локальном выравнивании также оказалось низким, что соотвествует ожиданиям от выравнивания негомологичных белков.
Type | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|
Global | 32.0 | 14.5 | 25.6 | 185 | 17 | 100.0% | 100.0% |
Local | 52.5 | 28.3 | 39.6 | 22 | 5 | 28.1% | 25.7% |
Множественное выравнивание ортологичных белков
Был осуществлен поиск аннотированных белков с мнемоникой QUEA в базе данных Swiss-Prot. Было получено 536 результатов и из них были выбраны белки, имеющие мнемонику QUEA от других бактерий: помимо Escherichia coli K12 и Bacillus subtilis 168 были взяты белки Clostridium tetani, Burkholderia pseudomallei, Prochlorococcus marinus, Caulobacter vibrioides и Deinococcus radiodurans. Было построено множественное выравнивание данных 7 белков алгоритмом MAFFT (см. S2).
Из полученного выравнивания видно, что по-видимому рассматриваемые белки гомологичны и имеют консервативные участки с высокой идентичностью, например, это видно в столбцах 69-83, 222-231, 250-260 и других.
Параметры программ needle и water
Программы needle и water из пакета EMBOSS без указания опции -auto запрашивают штраф за открытие и продолжение инделя. Был проведен анализ влияния данных параметров на результат выравнивания (Табл. 3 и Табл. 4, см. S3).
№ | Открытие | Продожение | Число гэпов | Число инделей |
---|---|---|---|---|
1 | 10.0 | 0.5 | 21 | 4 |
2 | 20.0 | 1.0 | 3 | 2 |
3 | 5.0 | 0.5 | 9 | 5 |
4 | 2.0 | 2.0 | 11 | 10 |
5 | 5.0 | 5.0 | 5 | 4 |
6 | 8.0 | 8.0 | 5 | 4 |
№ | Открытие | Продожение | Число гэпов | Число инделей | Покрытие 1 | Покрытие 2 |
---|---|---|---|---|---|---|
1 | 10.0 | 0.5 | 12 | 3 | 93.9 % | 75.0 % |
2 | 20.0 | 1.0 | 3 | 2 | 95.9 % | 95.8 % |
3 | 5.0 | 0.5 | 9 | 5 | 95.9 % | 95.8 % |
4 | 2.0 | 2.0 | 9 | 8 | 95.9 % | 95.8 % |
5 | 5.0 | 5.0 | 5 | 4 | 95.9 % | 95.8 % |
6 | 8.0 | 8.0 | 5 | 4 | 95.9 % | 95.8 % |
Можно видеть, что одновременное увеличение штрафов приводит к уменьшению количества инделей и гэпов в выравнивании, а уменьшение штрафа за открытие инделя относительно штрафа за его продолжение приводит к увеличению количества инделей и уменьшению их средней длины.
СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ
Каталог Google Drive со всеми сопроводительными материалами.
Файлы broken.needle и broken.water
Файл QUEA_multiple_alignment.jvp
Файлы test*.needle и test*.water