Практикум 9. Выравнивание последовательностей

2. Глобальное парное выравнивание гомологичных белков.

1. Для выполнения задания из Uniprot было скачано два списка идентификаторов записей: всех аннотированных записей, чей идентификатор заканчивается на _ECOLI и всех аннотированных записей, чей идентификатор заканчивается на _BACSU.

2. Средствами электронных таблиц были отобраны три пары записей с совпадающими мнемониками функции: IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU.

3. Произведено выравнивание последовательностей каждой пары программой needle при параметрах по умолчанию, результаты которого представлены ниже в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трех пар белков.

Protein Name
ID1
ID2
Score
% Identity
% Similarity
Gaps
Indels
dITP/XTP pyrophosphatase
IXTPA_ECOLI
IXTPA_BACSU
432,5
45,6%
59,3%
13
5
Adenylate kinase
KAD_ECOLI
KAD_BACSU
527,5
46,4%
65,8%
13
3
GTP pyrophosphokinase
RELA_ECOLI
RELA_BACSU
1389,0
36,9%
60,1%
50
17

3. Локальное парное выравнивание гомологичных белков.

Те же пары белков (IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU) были выровнены программой water при параметрах по умолчанию. Результаты выравнивания представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трех пар белков.

Protein Name
ID1
ID2
Score
% Identity
% Similarity
Gaps
Indels
Coverage1
Coverage2
dITP/XTP pyrophosphatase
IXTPA_ECOLI
IXTPA_BACSU
433,5
47,6%
61,8%
3
2
96,4%
95,5%
Adenylate kinase
KAD_ECOLI
KAD_BACSU
527,5
47,2%
67,0%
9
2
100%
98,2%
GTP pyrophosphokinase
RELA_ECOLI
RELA_BACSU
1397,5
38,6%
62,3%
45
14
93,1%
92,6%

4. Комментарии к выравниваниям

Из представленных результатов глобального парного выравнивания и локального парного выравнивания трех пар белков видно, что процент идентичности и сходства выше, чем 20-25%, и покрытие приближается к 100%. Это позволяет сделать вывод о том, что белки всех трех пар гомологичны по всей длине внутри своих пар.

Результаты глобального и локального выравниваний практически сопоставимы. При глобальном парном выравнивании количество гэпов и инделей больше, чем при локальном парном выравнивании во всех трех случаях. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкое сходство друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низким сходством, поэтому количество гэпов уменьшилось, а процент идентичности стал выше.


5. Результаты применения программ выравнивания к неродственным белкам.

Для выполнения этого задания была выбрана случайная пара белков с разными мнемониками функций: RL20_ECOLI и THIS_BACSU. Произведено выравнивание последовательностей программой needle при параметрах по умолчанию, результаты которого представлены в таблице 3 и программой water при параметрах по умолчанию, результаты которого представлены в таблице 4.

Таблица 3. Характеристики глобального парного выравнивания неродственных белков.

Protein Name1
ID1
Protein Name2
ID2
Score
% Identity
% Similarity
Gaps
Indels
Large ribosomal subunit protein bL20
RL20_ECOLI
Sulfur carrier protein ThiS
THIS_BACSU
17,0
6,8%
15,1%
108
5

Таблица 4. Характеристики локального парного выравнивания неродственных белков.

Protein Name1
ID1
Protein Name2
ID2
Score
% Identity
% Similarity
Gaps
Indels
Coverage1
Coverage2
Large ribosomal subunit protein bL20
RL20_ECOLI
Sulfur carrier protein ThiS
THIS_BACSU
23,0
40,0%
80,0%
0
0
8,5%
15,2%

Белки не являются гомологичными, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 6,8% , что значительно меньше порогового значения 20-25%. При локальном парном выравнивании эта цифра составляет 40%. Однако такой высокий процент достигается тем, что были выбраны очень маленькие сходные участки последовательностей, что подтверждается процентом перекрытия 8,5% и 15,2% для RL20_ECOLI и THIS_BACSU соответственно. Также в глобальном парном выравнивании наблюдается большое количество гэпов (108 шт.) при достаточно малой длине последовательности.

6. Множественное выравнивание белков и импорт в Jalview.

а) Для одной из мнемоник функций (IXTPA_) в Swiss-Prot было найдено 256 белков, чьи идентификаторы начинаются с этой мнемоники.

Полное имя белка IXTPA_ECOLI: dITP/XTP pyrophosphatase.

Для множественного выравнивания были выбраны следующие белки: IXTPA_ARCFU, IXTPA_METJA, IXTPA_VEREI, IXTPA_LEPCP, IXTPA_PICTO, IXTPA_ECOLI, IXTPA_BACSU.

б) Множественное выравнивание проводилось на kodomo при помощи программы выравнивания muscle. Для этого был создан списочный файл ixtpa.txt с выбранными белками, который затем был переведен в fasta формат. После этого, используя команду, приведенную ниже, было произведено выравнивание.

 muscle -align ixtpa.fasta -output ixtpa_alignment.fasta 

в) Результат выравнивания представлен в файле с проектом Jalview.

г) Белки выровнялись достаточно хорошо, однако в начале выравнивания и в его середине присутствует много гэпов. Все 7 белков являются гомологичными, так как имеют много сходных участков в последовательностях, несмотря на гэпы. У данного выравнивания имеются более консервативные и менее консервативные участки. Наиболее ярко выраженные консервативные участки: 73-90, 132-140, 157-169, 173-180, 187-206.