Выравнивание последовательностей
Глобальное парное выравнивание гомологичных белков
Таблица 1.Глобальное парное выравнивание белков Escherichia coli и Bacillus subtilis
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 2156,0 | 61,3% | 74,8% | 14 | 2 |
Polyribonucleotide nucleotidyltdansferase | PNP_ECOLI | PNP_BACSU | 1730,0 | 49,2% | 66,4% | 42 | 4 |
Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908,0 | 47,4% | 66,7% | 17 | 3 |
Локальное парное выравнивание гомологичных белков
Таблица 2. Локальное парное выравнивание белков Escherichia coli и Bacillus subtilis
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 2158,0 | 61,6% | 74,9% | 13 | 2 | 99,4% | 99,3% |
Polyribonucleotide nucleotidyltdansferase | PNP_ECOLI | PNP_BACSU | 1736,0 | 51,7% | 69,7% | 10 | 3 | 96,1% | 97,5% |
Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908,0 | 48,1% | 67,5% | 14 | 2 | 97,7% | 98,5% |
Глобальное и локальное выравнивание негомологичных белков
Таблица 3. Глобальное парное выравнивание негомологичных белков Escherichia coli и Bacillus subtilis
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
Elongation factor G/L-threonine 3-dehydrogenase | EFG_ECOLI | TDH_BACSU | 43,0 | 10,9% | 18,2% | 467 | 25 |
Таблица 4. Локальное парное выравнивание негомологичных белков Escherichia coli и Bacillus subtilis
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Elongation factor G/L-threonine 3-dehydrogenase | EFG_ECOLI | TDH_BACSU | 48,0 | 20,8% | 36,1% | 29 | 5 | 19,7% | 34,6% |
В таблицах 3 и 4 представлены результаты применения программ выравнивания к неродственным белкам: фактору элонгации G из Escherichia coli и L-треонин 3-дегидрогеназе Bacillus subtilis. Белки были намеренно выбраны так, чтобы между ними не было функциональной связи, которая могла бы быть ассоциирована с гомологией. Из результатов видно, что родство белков исключено: процент идентичности для полных последовательностей составляет всего 10,9%, а вес выравнивания - 43,0. С помощью программы water были найдены наиболее близкие по последовательности аминокислот участки полипептидных цепей, но даже для них процент идентичности составил всего 20,8%, а вес выравнивания - 48,0. При этом покрытие обоих последовательностей также очень мало по сравнению со значениями этий величины для выравниваний гомологичных белков: 19,7% и 34,5% - что также свидетельствует о том, что сходство белков, если оно и может быть обнаружено, возникло случайно, и данное выравнивание не имеет биологического смысла.
Множественное выравнивание белков и импорт в Jalview
Для составления множественного выравнивания была выбрана мнемоника EFG. По запросу mnemonic:efg_* AND reviewed:yes в Swiss-Prot можно найти 677 белков. Полное название белка из E.coli - Elongation factor G. Из полученного списка были выбраны, помимо EFG_ECOLI и EFG_BACSU, еще 5 идентификаторов белков: EFG_THETH, EFG_STAAU, EFG_MYCTU, EFG_STAAN, EFG_SHIFL. Для подготовки данных для выравнивания использовались функции командной строки: seqret и muscle. Был создан файл efg.txt со списком идентификаторов белков, с помощью которого впоследствии был получен файл в fasta-формате командой seqret @efg.txt efg.fasta. Далее командой muscle -in efg.fasta -out efg_alignment.fasta был получен файл с выравнянными последовательностями в формате fasta. Далее с помощью программы Jalview была создана визуализация полученного выравнивания: множественное выравнивание в Jalview. Изучая полученное выравнивание, можно отметить, что наиболее близки между собой белки EFG_ECOLI, EFG_SHIFL и EFG_THETH, EFG_BACSU, EFG_STAAU, EFG_STAAN, при этом наиболее часто отличается от общей картины последовательность аминокислот белка EFG_MYCTU. Можно предположить, что в эволюционном пути он отстоит от остальных в выборке. В целом можно утверждать, что все данные белки гомологичны, так как имеется достаточно много участков с высокой долей совпадения для всех белков выборки. В частности, присутствуют достаточно длинные участки, на которых все 7 последовательностей идентичны: 20-34, 88-99, а на участках 53-72, 273-280, 465-473 отклонения возникают только для EFG_THETH.
Параметры программ needle и water
Таблица 5. Результаты выравниваний при различных параметрах needle
Protein Name | ID 1 | ID 2 | Gap opening penalty | Extend penalty | Score | % Identity | % Similarity | Gaps | Indels |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 20 | 2,0 | 2091,0 | 61,1% | 74,8% | 14 | 2 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 20 | 0,1 | 2106,2 | 61,1% | 74,3% | 14 | 2 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 10 | 0,5 | 2156,0 | 61,3% | 74,8% | 14 | 2 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 1 | 5,0 | 2271,0 | 59,9% | 73,3% | 86 | 6 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 1 | 0,1 | 2359,2 | 58,1% | 69,4% | 164 | 43 |
Таблица 6. Результаты выравниваний при различных параметрах water
Protein Name | ID 1 | ID 2 | Gap opening penalty | Extend penalty | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 20 | 2,0 | 2096,0 | 61,6% | 74,9% | 13 | 2 | 99,4% | 99,3% |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 20 | 0,1 | 2111,2 | 61,6% | 74,9% | 13 | 2 | 99,4% | 99,3% |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 10 | 0,5 | 2158,0 | 61,6% | 74,9% | 13 | 2 | 99,4% | 99,3% |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 1 | 5,0 | 2317,0 | 60,0% | 72,7% | 100 | 17 | 100,0% | 100,0% |
Elongation factor G | EFG_ECOLI | EFG_BACSU | 1 | 0,1 | 2359,2 | 58,1% | 69,4% | 164 | 42 | 100,0% | 100,0% |
При запуске needle и water без опции -auto программа требует от пользователя ввести вручную значения Gap opening penalty (штраф за открытие гэпа) - количество единиц, вычитаемых из веса выравнивания на каждый первый гэп - и Extend penalty (штраф за удлинение) - количество единиц, вычитаемых из веса выравнивания за каждый последующий гэп в индели. По умолчанию эти значения равны соответственно 10,0 и 0,5. В таблицах 5 и 6 приведены результаты запуска команд needle и water с различными значениями вышеописанных параметров. В целом стоит отметить, что значения процента идентичности и схожести при изменении штрафов остаются практически неизменными, уменьшаются по мере уменьшения штрафов на незначительную величину. Закономерно с ростом штрафов уменьшается вес выравнивания и наоборот.
Задача программы состоит в том, чтобы при заданных значениях штрафов построить выравнивание с наибольшим весом, поэтому при увеличении штрафа за открытие гэпа их число должно максимально уменьшаться, однако с учетом того, что штраф за гэп обычно выше штрафа за "замену" аминокислоты количество гэпов и инделей уже при значении gap opening penalty по умолчанию является наименьшим возможным и при увеличении его не меняется. При уменьшении штрафа за открытие гэпа их количество растет, что видно из таблиц для обеих команд: при значении gap opening penalty = 10.0 число гэпов составляет 13-14, а пр значении = 1 - до 164. Значение параметра extend penalty влияет на то, распределены гэпы в выравнивании преимущественно поодиночке или объединены в индели по несколько. Чем ниже штраф за удлинение гэпа, тем больше инделей наблюдается в полученном выравнивании. При этом число гэпов также растет, вероятно, вслествие того, что выравнивание с очень большим количеством одиночных гэпов имело бы меньший вес из-за малого числа совпадений аминокислотных остатков. Например, при одном и том же значении штрафа за открытие гэпа = 1 при величине штрафа за его удлинение = 5 в глобальном выравнивании наблюдается 86 гэпов и всего 6 инделей, а при величине = 0.1 - 164 гэпа и 43 индели. Среди особенностей локального выравнивания можно отметить, что при уменьшении штрафов за открытие и удлинение гэпа покрытие последовательности выравниванием достигает 100% для обоих белков.