Выравнивание последовательностей


Глобальное парное выравнивание гомологичных белков


Таблица 1.Глобальное парное выравнивание белков Escherichia coli и Bacillus subtilis
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Elongation factor GEFG_ECOLIEFG_BACSU2156,061,3%74,8%142
Polyribonucleotide nucleotidyltdansferasePNP_ECOLIPNP_BACSU1730,049,2%66,4%424
Phosphoglycerate kinasePGK_ECOLIPGK_BACSU908,047,4%66,7%173

Локальное парное выравнивание гомологичных белков


Таблица 2. Локальное парное выравнивание белков Escherichia coli и Bacillus subtilis
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Elongation factor GEFG_ECOLIEFG_BACSU2158,061,6%74,9%13299,4%99,3%
Polyribonucleotide nucleotidyltdansferasePNP_ECOLIPNP_BACSU1736,051,7%69,7%10396,1%97,5%
Phosphoglycerate kinasePGK_ECOLIPGK_BACSU908,048,1%67,5%14297,7%98,5%

Глобальное и локальное выравнивание негомологичных белков


Таблица 3. Глобальное парное выравнивание негомологичных белков Escherichia coli и Bacillus subtilis
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Elongation factor G/L-threonine 3-dehydrogenaseEFG_ECOLITDH_BACSU43,010,9%18,2%46725

Таблица 4. Локальное парное выравнивание негомологичных белков Escherichia coli и Bacillus subtilis
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Elongation factor G/L-threonine 3-dehydrogenaseEFG_ECOLITDH_BACSU48,020,8%36,1%29519,7%34,6%

В таблицах 3 и 4 представлены результаты применения программ выравнивания к неродственным белкам: фактору элонгации G из Escherichia coli и L-треонин 3-дегидрогеназе Bacillus subtilis. Белки были намеренно выбраны так, чтобы между ними не было функциональной связи, которая могла бы быть ассоциирована с гомологией. Из результатов видно, что родство белков исключено: процент идентичности для полных последовательностей составляет всего 10,9%, а вес выравнивания - 43,0. С помощью программы water были найдены наиболее близкие по последовательности аминокислот участки полипептидных цепей, но даже для них процент идентичности составил всего 20,8%, а вес выравнивания - 48,0. При этом покрытие обоих последовательностей также очень мало по сравнению со значениями этий величины для выравниваний гомологичных белков: 19,7% и 34,5% - что также свидетельствует о том, что сходство белков, если оно и может быть обнаружено, возникло случайно, и данное выравнивание не имеет биологического смысла.


Множественное выравнивание белков и импорт в Jalview


Для составления множественного выравнивания была выбрана мнемоника EFG. По запросу mnemonic:efg_* AND reviewed:yes в Swiss-Prot можно найти 677 белков. Полное название белка из E.coli - Elongation factor G. Из полученного списка были выбраны, помимо EFG_ECOLI и EFG_BACSU, еще 5 идентификаторов белков: EFG_THETH, EFG_STAAU, EFG_MYCTU, EFG_STAAN, EFG_SHIFL. Для подготовки данных для выравнивания использовались функции командной строки: seqret и muscle. Был создан файл efg.txt со списком идентификаторов белков, с помощью которого впоследствии был получен файл в fasta-формате командой seqret @efg.txt efg.fasta. Далее командой muscle -in efg.fasta -out efg_alignment.fasta был получен файл с выравнянными последовательностями в формате fasta. Далее с помощью программы Jalview была создана визуализация полученного выравнивания: множественное выравнивание в Jalview. Изучая полученное выравнивание, можно отметить, что наиболее близки между собой белки EFG_ECOLI, EFG_SHIFL и EFG_THETH, EFG_BACSU, EFG_STAAU, EFG_STAAN, при этом наиболее часто отличается от общей картины последовательность аминокислот белка EFG_MYCTU. Можно предположить, что в эволюционном пути он отстоит от остальных в выборке. В целом можно утверждать, что все данные белки гомологичны, так как имеется достаточно много участков с высокой долей совпадения для всех белков выборки. В частности, присутствуют достаточно длинные участки, на которых все 7 последовательностей идентичны: 20-34, 88-99, а на участках 53-72, 273-280, 465-473 отклонения возникают только для EFG_THETH.


Параметры программ needle и water


Таблица 5. Результаты выравниваний при различных параметрах needle
Protein NameID 1ID 2Gap opening penaltyExtend penaltyScore% Identity% SimilarityGapsIndels
Elongation factor GEFG_ECOLIEFG_BACSU202,02091,061,1%74,8%142
Elongation factor GEFG_ECOLIEFG_BACSU200,12106,261,1%74,3%142
Elongation factor GEFG_ECOLIEFG_BACSU100,52156,061,3%74,8%142
Elongation factor GEFG_ECOLIEFG_BACSU15,02271,059,9%73,3%866
Elongation factor GEFG_ECOLIEFG_BACSU10,12359,258,1%69,4%16443

Таблица 6. Результаты выравниваний при различных параметрах water
Protein NameID 1ID 2Gap opening penaltyExtend penaltyScore% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Elongation factor GEFG_ECOLIEFG_BACSU202,02096,061,6%74,9%13299,4%99,3%
Elongation factor GEFG_ECOLIEFG_BACSU200,12111,261,6%74,9%13299,4%99,3%
Elongation factor GEFG_ECOLIEFG_BACSU100,52158,061,6%74,9%13299,4%99,3%
Elongation factor GEFG_ECOLIEFG_BACSU15,02317,060,0%72,7%10017100,0%100,0%
Elongation factor GEFG_ECOLIEFG_BACSU10,12359,258,1%69,4%16442100,0%100,0%

При запуске needle и water без опции -auto программа требует от пользователя ввести вручную значения Gap opening penalty (штраф за открытие гэпа) - количество единиц, вычитаемых из веса выравнивания на каждый первый гэп - и Extend penalty (штраф за удлинение) - количество единиц, вычитаемых из веса выравнивания за каждый последующий гэп в индели. По умолчанию эти значения равны соответственно 10,0 и 0,5. В таблицах 5 и 6 приведены результаты запуска команд needle и water с различными значениями вышеописанных параметров. В целом стоит отметить, что значения процента идентичности и схожести при изменении штрафов остаются практически неизменными, уменьшаются по мере уменьшения штрафов на незначительную величину. Закономерно с ростом штрафов уменьшается вес выравнивания и наоборот.

Задача программы состоит в том, чтобы при заданных значениях штрафов построить выравнивание с наибольшим весом, поэтому при увеличении штрафа за открытие гэпа их число должно максимально уменьшаться, однако с учетом того, что штраф за гэп обычно выше штрафа за "замену" аминокислоты количество гэпов и инделей уже при значении gap opening penalty по умолчанию является наименьшим возможным и при увеличении его не меняется. При уменьшении штрафа за открытие гэпа их количество растет, что видно из таблиц для обеих команд: при значении gap opening penalty = 10.0 число гэпов составляет 13-14, а пр значении = 1 - до 164. Значение параметра extend penalty влияет на то, распределены гэпы в выравнивании преимущественно поодиночке или объединены в индели по несколько. Чем ниже штраф за удлинение гэпа, тем больше инделей наблюдается в полученном выравнивании. При этом число гэпов также растет, вероятно, вслествие того, что выравнивание с очень большим количеством одиночных гэпов имело бы меньший вес из-за малого числа совпадений аминокислотных остатков. Например, при одном и том же значении штрафа за открытие гэпа = 1 при величине штрафа за его удлинение = 5 в глобальном выравнивании наблюдается 86 гэпов и всего 6 инделей, а при величине = 0.1 - 164 гэпа и 43 индели. Среди особенностей локального выравнивания можно отметить, что при уменьшении штрафов за открытие и удлинение гэпа покрытие последовательности выравниванием достигает 100% для обоих белков.