Выравнивание последовательностей

Сравнение глобального и локального выравниваний ортологичных белков

Из базы данных Swiss-Prot были скачаны идентификаторы всех записей для Escherichia coli K12 и Bacillus subtilis 168. Для дальнейшего анализа были взяты белки c мнемониками: QUEA - S-аденозилметионин:тРНК рибозилтрансфераза-изомераза, фермент, участвующий в биосинтезе кеуозина - модифицированного азотистого основания, встречающегося в первой позиции антикодона у бактерий; AMPA - предполагаемая цитозольная аминопептидаза; MIND - белок, определяющий положение септы, участвующий в делении и образовании спор у бактерий. В Таблице 1 приведены характеристики глобальных парных выравниваний по алгоритму Нидлмана-Вунша для данных белков.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
S-adenosylmethionine:tRNA ribosyltransferase-isomerase QUEA_ECOLI QUEA_BACSU 768.5 45.2 64.0 24 10
Probable cytosol aminopeptidase AMPA_ECOLI AMPA_BACSU 720.5 34.2 52.8 31 11
Septum site-determining protein MinD MIND_ECOLI MIND_BACSU 598.5 43.1 66.3 14 6

Также для этих белков были проведены локальные парные выравнивания по алгоритму Смита-Ватермана, характеристики которых приведены в Таблице 2.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
S-adenosylmethionine:tRNA ribosyltransferase-isomerase QUEA_ECOLI QUEA_BACSU 769.5 46.8 66.4 12 9 99.4% 99.7%
Probable cytosol aminopeptidase AMPA_ECOLI AMPA_BACSU 723.5 35.0 54.0 17 8 97.6% 98.0%
Septum site-determining protein MinD MIND_ECOLI MIND_BACSU 601.5 43.6 67 12 5 99.6% 98.9%

Как можно видеть, для всех трех белков выравнивания данными двумя алгоритмами значительно различаются только по числу гэпов и инделей. Также для всех трех выравниваний по алгоритму Смита-Ватермана характерно высокое покрытие, что скорее всего говорит о том, что белки гомологичны по всей длине, поэтому локальное выравнивание в данном случае не будет более информативным, чем глобальное.

Глобальное и локальное выравнивание негомологичных белков

Далее были проведены выравнивания двух негомологичных белков Escherichia coli K12 и Bacillus subtilis 168 по алгоритмам Нидлмана-Вунша и Смита-Ватермана (см. S1). От Escherichia coli K12 была взята NAD-киназа (ID: NADK_ECOLI), для Bacillus subtilis 168 - субтилизин E (ID: SUBT_BACSU). И глобальное, и локальное выравнивание (Табл. 3) показали весьма низкие значения идентичности и сходства, что вполне ожидаемо, учитывая, что данные белки негомологичны и не сходны по выполняемой функции. Покрытие в локальном выравнивании также оказалось низким, что соотвествует ожиданиям от выравнивания негомологичных белков.

Таблица 3. Глобальное и локальное выравнивания негомологичных белков.
Type Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Global 32.0 14.5 25.6 185 17 100.0% 100.0%
Local 52.5 28.3 39.6 22 5 28.1% 25.7%

Множественное выравнивание ортологичных белков

Был осуществлен поиск аннотированных белков с мнемоникой QUEA в базе данных Swiss-Prot. Было получено 536 результатов и из них были выбраны белки, имеющие мнемонику QUEA от других бактерий: помимо Escherichia coli K12 и Bacillus subtilis 168 были взяты белки Clostridium tetani, Burkholderia pseudomallei, Prochlorococcus marinus, Caulobacter vibrioides и Deinococcus radiodurans. Было построено множественное выравнивание данных 7 белков алгоритмом MAFFT (см. S2).

Из полученного выравнивания видно, что по-видимому рассматриваемые белки гомологичны и имеют консервативные участки с высокой идентичностью, например, это видно в столбцах 69-83, 222-231, 250-260 и других.

Параметры программ needle и water

Программы needle и water из пакета EMBOSS без указания опции -auto запрашивают штраф за открытие и продолжение инделя. Был проведен анализ влияния данных параметров на результат выравнивания (Табл. 3 и Табл. 4, см. S3).

Таблица 3. Влияние штрафов за открытие и продолжение инделя на результат выравнивания программой needle.
Открытие Продожение Число гэпов Число инделей
1 10.0 0.5 21 4
2 20.0 1.0 3 2
3 5.0 0.5 9 5
4 2.0 2.0 11 10
5 5.0 5.0 5 4
6 8.0 8.0 5 4
Таблица 4. Влияние штрафов за открытие и продолжение инделя на результат выравнивания программой water.
Открытие Продожение Число гэпов Число инделей Покрытие 1 Покрытие 2
1 10.0 0.5 12 3 93.9 % 75.0 %
2 20.0 1.0 3 2 95.9 % 95.8 %
3 5.0 0.5 9 5 95.9 % 95.8 %
4 2.0 2.0 9 8 95.9 % 95.8 %
5 5.0 5.0 5 4 95.9 % 95.8 %
6 8.0 8.0 5 4 95.9 % 95.8 %

Можно видеть, что одновременное увеличение штрафов приводит к уменьшению количества инделей и гэпов в выравнивании, а уменьшение штрафа за открытие инделя относительно штрафа за его продолжение приводит к увеличению количества инделей и уменьшению их средней длины.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

Каталог Google Drive со всеми сопроводительными материалами.

  1. Файлы broken.needle и broken.water

  2. Файл QUEA_multiple_alignment.jvp

  3. Файлы test*.needle и test*.water