Практикум 9. Выравнивание последовательностей

2. Глобальное парное выравнивание гомологичных белков.

1. Для выполнения задания из Uniprot было скачано два списка идентификаторов записей: всех аннотированных записей, чей идентификатор заканчивается на _ECOLI и всех аннотированных записей, чей идентификатор заканчивается на _BACSU.

2. Средствами электронных таблиц были отобраны три пары записей с совпадающими мнемониками функции: IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU.

3. Произведено выравнивание последовательностей каждой пары программой needle при параметрах по умолчанию, результаты которого представлены ниже в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трех пар белков.

Protein Name
ID1
ID2
Score
% Identity
% Similarity
Gaps
Indels
dITP/XTP pyrophosphatase
IXTPA_ECOLI
IXTPA_BACSU
432,5
45,6%
59,3%
13
5
Adenylate kinase
KAD_ECOLI
KAD_BACSU
527,5
46,4%
65,8%
13
3
GTP pyrophosphokinase
RELA_ECOLI
RELA_BACSU
1389,0
36,9%
60,1%
50
17

3. Локальное парное выравнивание гомологичных белков.

Те же пары белков (IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU) были выровнены программой water при параметрах по умолчанию. Результаты выравнивания представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трех пар белков.

Protein Name
ID1
ID2
Score
% Identity
% Similarity
Gaps
Indels
Coverage1
Coverage2
dITP/XTP pyrophosphatase
IXTPA_ECOLI
IXTPA_BACSU
433,5
47,6%
61,8%
3
2
96,4%
95,5%
Adenylate kinase
KAD_ECOLI
KAD_BACSU
527,5
47,2%
67,0%
9
2
100%
98,2%
GTP pyrophosphokinase
RELA_ECOLI
RELA_BACSU
1397,5
38,6%
62,3%
45
14
93,1%
92,6%

4. Комментарии к выравниваниям

1. Пара белков IXTPA_ECOLI и IXTPA_BACSU. Данные белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 45,6% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 47,6%. Покрытие для IXTPA_ECOLI составило 96,4% , а для IXTPA_BACSU - 95,5% , что говорит о том, что в локальное парное выравнивание вошла практически вся последовательность для каждого из белков.

Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 13 штук, а инделей - 5 штук. При локальном парном выравнивании количество гэпов - 3 штуки, а инделей - 2 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше.

2. Пара белков KAD_ECOLI и KAD_BACSU. Аналогичные выводы можно сделать и для данных белков. Белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 46,4% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 47,2%. Покрытие для KAD_ECOLI составило 100% , а для KAD_BACSU - 98,2% , что говорит о том, что в локальное парное выравнивание вошла абсолютно вся последовательность белка KAD_ECOLI и практически вся последовательность белка KAD_BACSU.

Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 13 штук, а инделей - 3 штук. При локальном парном выравнивании количество гэпов - 9 штуки, а инделей - 2 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше.

3. Пара белков RELA_ECOLI и RELA_BACSU. Данные белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 36,9% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 38,6%. Покрытие для RELA_ECOLI составило 93,1% , а для RELA_BACSU - 92,6% , что говорит о том, что в локальное парное выравнивание вошла практически вся последовательность для каждого из белков.

Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 50 штук, а инделей - 17 штук. При локальном парном выравнивании количество гэпов - 45 штуки, а инделей - 14 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше. При выравнивании данных белков наблюдается достаточно большое количество гэпов, однако стоит учитывать длину выравнивания, которая является намного больше, чем длины предыдущих.


5. Результаты применения программ выравнивания к неродственным белкам.

Для выполнения этого задания была выбрана случайная пара белков с разными мнемониками функций: RL20_ECOLI и THIS_BACSU. Произведено выравнивание последовательностей программой needle при параметрах по умолчанию, результаты которого представлены в таблице 3 и программой water при параметрах по умолчанию, результаты которого представлены в таблице 4.

Таблица 3. Характеристики глобального парного выравнивания неродственных белков.

Protein Name1
ID1
Protein Name2
ID2
Score
% Identity
% Similarity
Gaps
Indels
Large ribosomal subunit protein bL20
RL20_ECOLI
Sulfur carrier protein ThiS
THIS_BACSU
17,0
6,8%
15,1%
108
5

Таблица 4. Характеристики локального парного выравнивания неродственных белков.

Protein Name1
ID1
Protein Name2
ID2
Score
% Identity
% Similarity
Gaps
Indels
Coverage1
Coverage2
Large ribosomal subunit protein bL20
RL20_ECOLI
Sulfur carrier protein ThiS
THIS_BACSU
23,0
40,0%
80,0%
0
0
8,5%
15,2%

Белки не являются гомологичными, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 6,8% , что значительно меньше порогового значения 20-25%. При локальном парном выравнивании эта цифра составляет 40%. Однако такой высокий процент достигается тем, что были выбраны очень маленькие сходные участки последовательностей, что подтверждается процентом перекрытия 8,5% и 15,2% для RL20_ECOLI и THIS_BACSU соответственно. Также в глобальном парном выравнивании наблюдается большое количество гэпов (108 шт.) при достаточно малой длине последовательности.

6. Множественное выравнивание белков и импорт в Jalview.

а) Для одной из мнемоник функций (IXTPA_) в Swiss-Prot было найдено 256 белков, чьи идентификаторы начинаются с этой мнемоники.

Полное имя белка IXTPA_ECOLI: dITP/XTP pyrophosphatase.

Для множественного выравнивания были выбраны следующие белки: IXTPA_ARCFU, IXTPA_METJA, IXTPA_VEREI, IXTPA_LEPCP, IXTPA_PICTO, IXTPA_ECOLI, IXTPA_BACSU.

б) Множественное выравнивание проводилось на kodomo при помощи программы выравнивания muscle. Для этого был создан списочный файл ixtpa.txt с выбранными белками, который затем был переведен в fasta формат. После этого, используя команду, приведенную ниже, было произведено выравнивание.

 muscle -align ixtpa.fasta -output ixtpa_alignment.fasta 

в) Результат выравнивания представлен в файле с проектом Jalview.

г) Белки выровнялись достаточно хорошо, однако в начале выравнивания и в его середине присутствует много гэпов. Все 7 белков являются гомологичными, так как имеют много сходных участков в последовательностях, несмотря на гэпы. У данного выравнивания имеются более консервативные и менее консервативные участки. Наиболее ярко выраженные консервативные участки: 73-90, 132-140, 157-169, 173-180, 187-206.