Практикум #11. Алгоритмы выравнивания, множественные выравнивания.
Целью данного практикума является практика в
выполнении выравниваний: глобального по алгоритму
Для выполнения работы было использовано программное обеспечение с открытым исходным кодом Emboss, а
именно:
-
Комманда needle(игла)
– глобальное выравнивание; -
Комманда water(вода)
– локальное выравнивание.
Также была использована комманда muscle – множественное выравнивание.
Задание 1. Сравнение выравнивания гомологичных белков и негомологичных белков
Что и как было сделано?
Белки искал на сайте Uniprot по запросу:
(organism:"Escherichia coli (strain K12) [83333]"
OR
organism:"Bacillus subtilis (strain 168) [224308]")
AND reviewed:yes
Результат поиска отсортировал по ID. Гомологичность белков отслеживал по мнемонике функций, отраженной в идентификаторах последовательностей. Дополнительно, кроме комманд needle и water, пользовался коммандой infoalign для получения длин последовательностей и для записей выравниваний в fasta-формате. Далее просматривал выравнивания в программе Jalview. Результат – в таблице pr11_term2.xlsx.
Выравнивание гомологичных последовательностей
Для выравниваний данного типа я взял следующие белки:
-
6PGL_BACSU & 6PGL_ECOLI
6-phosphogluconolactonase 349; 331 а. о. -
AGAL_BACSU & AGAL_ECOLI
Alpha-galactosidase 432; 451 а. о. -
APT_BACSU & APT_ECOLI
Adenine phosphoribosyltransferase 170; 183 а. о. -
CHEA_BACSU & CHEA_ECOLI
Chemotaxis protein CheAe 672; 654 а. о. -
CSPC_BACSU & CSPC_ECOLI
Cold shock protein CspC; Cold shock-like protein CspC 66; 69 а. о.
Полные результаты глобального выравнивания в таблице 1, локального - в таблице 2. Папка с глобальными выравниваниями: first_homologus. Папка с локальными выравниваниями: second_homologus.
Выравнивание негомологичных последовательностей
Для выравниваний данного типа я взял следующие белки:
-
RF1_BACSU & DEGS_ECOLI
Peptide chain release factor 1; Serine endoprotease DegS 356; 355 а. о. -
COX2_BACSU & ALR2_ECOLI
Cytochrome c oxidase subunit 2; Alanine racemase, catabolic 356; 357 а. о. -
COTI_BACSU & PLSX_ECOLI
Spore coat protein I; Phosphate acyltransferase 357; 356 а. о. -
FLHB_BACSU & LACI_ECOLI
Flagellar biosynthetic protein FlhB; Lactose operon repressor 360; 360 а. о. -
DHLE_BACSU & YPDF_ECOLI
Leucine dehydrogenase; Aminopeptidase YpdF 364; 361 а. о. -
SKFA_BACSU & RMF_ECOLI
Sporulation killing factor, SKF; Ribosome modulation factor, RMF 55; 55 а. о. -
DEGR_BACSU & RALR_ECOLI
Regulatory protein DegR; Endodeoxyribonuclease toxin RalR 60; 64 а. о. -
COPZ_BACSU & CCMD_ECOLI
Copper chaperone CopZ; Heme exporter protein D 69; 69 а. о. -
CSRA_BACSU & PSPB_ECOLI
Translational regulator CsrA; Phage shock protein B 74; 74 а. о. -
COTD_BACSU & FEOA_ECOLI
Spore coat protein D, Fe(2+) transport protein A 75; 75 а. о.
Полные результаты глобального выравнивания в таблице 3, локального - в таблице 4. Папка с глобальными выравниваниями: first_nonhomologus. Папка с локальными выравниваниями: second_nonhomologus.
Дополнительные материалы
- Protein Name(-s) - название белков на английском (для гомологичных белков общее, для негомологичных - названия двух белков через запятую);
- Program - использованная программа для выравнивания;
- ID 1 - идентификатор первого белка;
- ID 2 - идентификатор второго белка;
- Score - очки выравнивания двух белков;
- % Identity - соответствие двух белков, в процентах;
- % Similarity - схожесть двух белков, в процентах;
- Gap symbols (-) - количество символов пропуска в выравнивании;
- Indels - количество блоков последовательных (неразрывных) пропусков;
- % Coverage 1 - покрытие выравниванием первого белка (для глобального всегда 100%);
- % Coverage 2 - покрытие выравниванием второго белка (для глобального всегда 100%).
# | Protein Name(-s) | Program | ID 1 | ID 2 | Score | % Identity | % Similarity | Gap symbols (-) | Indels | % Coverage 1 | % Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | Enolase | needle | ENO_ECOLI | ENO_BACSU | 1351.0 | 62.1 | 74.8 | 20 | 5 | 100.0 | 100.0 |
1 | 6-phosphogluconolactonase | needle | 6PGL_BACSU | 6PGL_ECOLI | 304.5 | 25.3 | 42.0 | 62 | 6 | 100.0 | 100.0 |
2 | Alpha-galactosidase | needle | AGAL_BACSU | AGAL_ECOLI | 1066.0 | 48.6 | 63.9 | 19 | 6 | 100.0 | 100.0 |
3 | Adenine phosphoribosyltransferase | needle | APT_BACSU | APT_ECOLI | 441.5 | 50.3 | 61.2 | 13 | 3 | 100.0 | 100.0 |
4 | Chemotaxis protein CheAe | needle | CHEA_BACSU | CHEA_ECOLI | 1042.5 | 33.9 | 56.7 | 68 | 11 | 100.0 | 100.0 |
5 | Cold shock protein CspC; Cold shock-like protein | needle | CSPC_BACSU | CSPC_ECOLI | 186.0 | 53.6 | 65.2 | 3 | 2 | 100.0 | 100.0 |
# | Protein Name(-s) | Program | ID 1 | ID 2 | Score | % Identity | % Similarity | Gap symbols (-) | Indels | % Coverage 1 | % Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | Enolase | water | ENO_ECOLI | ENO_BACSU | 1359.0 | 64.1 | 77.2 | 7 | 3 | 98.1 | 97.9 |
1 | 6-phosphogluconolactonase | water | 6PGL_BACSU | 6PGL_ECOLI | 317.0 | 30.6 | 48.7 | 16 | 5 | 75.1 | 76.1 |
2 | Alpha-galactosidase | water | AGAL_BACSU | AGAL_ECOLI | 1070.0 | 49.7 | 65.1 | 14 | 4 | 98.8 | 97.8 |
3 | Adenine phosphoribosyltransferase | water | APT_BACSU | APT_ECOLI | 450.0 | 56.2 | 66.7 | 0 | 0 | 95.3 | 88.5 |
4 | Chemotaxis protein CheAe | water | CHEA_BACSU | CHEA_ECOLI | 1046.5 | 34.7 | 57.9 | 54 | 11 | 99.7 | 97.6 |
5 | Cold shock protein CspC; Cold shock-like protein | water | CSPC_BACSU | CSPC_ECOLI | 193.0 | 59.7 | 72.6 | 1 | 1 | 92.4 | 89.9 |
# | Protein Name(-s) | Program | ID 1 | ID 2 | Score | % Identity | % Similarity | Gap symbols (-) | Indels | % Coverage 1 | % Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | General stress protein 13, Aldehyde-alcohol dehydrogenase | needle | GS13_BACSU | ADHE_ECOLI | 28.0 | 4.2 | 6.7 | 733 | 25 | 100.0 | 100.0 |
1 | Peptide chain release factor 1; Serine endoprotease DegS | needle | RF1_BACSU | DEGS_ECOLI | 14.5 | 4.9 | 7.7 | 505 | 10 | 100.0 | 100.0 |
2 | Cytochrome c oxidase subunit 2; Alanine racemase, catabolic | needle | COX2_BACSU | ALR2_ECOLI | 15.0 | 2.4 | 3.1 | 624 | 6 | 100.0 | 100.0 |
3 | Spore coat protein I; Phosphate acyltransferase | needle | COTI_BACSU | PLSX_ECOLI | 27.0 | 7.1 | 13.5 | 411 | 13 | 100.0 | 100.0 |
4 | Flagellar biosynthetic protein FlhB; Lactose operon repressor | needle | FLHB_BACSU | LACI_ECOLI | 23.5 | 1.5 | 2.6 | 642 | 3 | 100.0 | 100.0 |
5 | Leucine dehydrogenase; Aminopeptidase YpdF | needle | DHLE_BACSU | YPDF_ECOLI | 22.0 | 5.8 | 9.7 | 517 | 13 | 100.0 | 100.0 |
6 | Sporulation killing factor, SKF; Ribosome modulation factor, RMF | needle | SKFA_BACSU | RMF_ECOLI | 12.0 | 5.4 | 13.0 | 74 | 3 | 100.0 | 100.0 |
7 | Regulatory protein DegR; Endodeoxyribonuclease toxin RalR | needle | DEGR_BACSU | RALR_ECOLI | 5.0 | 0.8 | 1.7 | 116 | 2 | 100.0 | 100.0 |
8 | Copper chaperone CopZ; Heme exporter protein D | needle | COPZ_BACSU | CCMD_ECOLI | 8.0 | 3.7 | 12.8 | 80 | 3 | 100.0 | 100.0 |
9 | Translational regulator CsrA; Phage shock protein B | needle | CSRA_BACSU | PSPB_ECOLI | 12.5 | 16.8 | 27.4 | 42 | 6 | 100.0 | 100.0 |
10 | Spore coat protein D, Fe(2+) transport protein A | needle | COTD_BACSU | FEOA_ECOLI | 10.5 | 8.2 | 10.7 | 94 | 5 | 100.0 | 100.0 |
# | Protein Name(-s) | Program | ID 1 | ID 2 | Score | % Identity | % Similarity | Gap symbols (-) | Indels | % Coverage 1 | % Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | General stress protein 13, Aldehyde-alcohol dehydrogenase | water | GS13_BACSU | ADHE_ECOLI | 41.5 | 22.6 | 38.7 | 43 | 7 | 77.7 | 14.6 |
1 | Peptide chain release factor 1; Serine endoprotease DegS | water | RF1_BACSU | DEGS_ECOLI | 34.0 | 21.7 | 60.9 | 0 | 0 | 6.5 | 6.5 |
2 | Cytochrome c oxidase subunit 2; Alanine racemase, catabolic | water | COX2_BACSU | ALR2_ECOLI | 34.5 | 23.3 | 40.0 | 15 | 4 | 21,6 | 24,2 |
3 | Spore coat protein I; Phosphate acyltransferase | water | COTI_BACSU | PLSX_ECOLI | 42.0 | 24.2 | 44.4 | 9 | 3 | 27,5 | 25,5 |
4 | Flagellar biosynthetic protein FlhB; Lactose operon repressor | water | FLHB_BACSU | LACI_ECOLI | 40.5 | 20.0 | 39.2 | 27 | 6 | 26.4 | 32.8 |
5 | Leucine dehydrogenase; Aminopeptidase YpdF | water | DHLE_BACSU | YPDF_ECOLI | 36.0 | 15.1 | 39.7 | 17 | 5 | 39.6 | 36.3 |
6 | Sporulation killing factor, SKF; Ribosome modulation factor, RMF | water | SKFA_BACSU | RMF_ECOLI | 20.0 | 42.9 | 85.7 | 0 | 0 | 12.7 | 12.7 |
7 | Regulatory protein DegR; Endodeoxyribonuclease toxin RalR | water | DEGR_BACSU | RALR_ECOLI | 16.0 | 28.6 | 85.7 | 0 | 0 | 11.7 | 10.9 |
8 | Copper chaperone CopZ; Heme exporter protein D | water | COPZ_BACSU | CCMD_ECOLI | 14.0 | 21.1 | 57.9 | 1 | 1 | 27.5 | 26 |
9 | Translational regulator CsrA; Phage shock protein B | water | CSRA_BACSU | PSPB_ECOLI | 27.5 | 34.6 | 42.3 | 6 | 1 | 27.0 | 35.1 |
10 | Spore coat protein D, Fe(2+) transport protein A | water | COTD_BACSU | FEOA_ECOLI | 24.0 | 44.4 | 66.7 | 0 | 0 | 12.0 | 12.0 |
Выводы
В случае глобального выравнивания белков мы можем много чего сказать. Во-первых, в среднем у
гомологичных белков достаточно большой процент схожести (Similarity) > ~ 70% и соответствия
(Identity) > ~ 50%. Во-вторых, большое количество очков (Score) - в среднем, на 2 порядка
больше, чем у негомологичных. В третьих, малое количество инделей ( ~ 3), в то время, как у
негомологичных больше ( ~ 6). Про гэпы довольно сложно судить, так как один шаг эволюции линейно
не зависит от их количества, здесь имеется лишь косвенная связь.
Про локальные выравнивания мы можем сказать, что все вышесказанное для них тоже присуще. Кроме
того, покрытие (Coverage) тоже довольно важно. Чем оно больше, тем более последовательность как
целое гомологично другому белку, тем меньше произошло больших инсерций или делеций.
Также можно заметить, что в глобальных и особенно в локальных выравниваниях короткие белки (№ 6-10 в таблицах 3 и 4) получают довольно большой процент сходства.
Задание 2. Отличия в парных выравниваниях последовательностей одних и тех же белков, построенных разными программами
Что было сделано?
Сначала нашли интересующую нас мнемонику белка. Поиск был осуществлен коммандой в
терминале:
user@ubuntu:~$
infoseq 'sw:*_human' -only -name -length -out human.txt
Затем скачали все последовательности из Swissprot с одной мнемоникой. Произвели выравнивание программой muscle. Импортировали в одно окно Jalview это выравнивание. Затем произвели раскраску колонок в двух режимах: Clustal (рис. 1) и Blossum62 (рис. 2). Раскрашены только те колонки, в которых процент соответствия равен или превышает 80%.
Множественное выравнивание.
В данном задании была выбрана мнемоника RF1. По ней в банке последовательностей Swissprot были найдены белки Peptide chain release factor 1 из разных организмов:
-
RF1_DEHMC
Dehalococcoides mccartyi (strain CBDB1) Bacteria Chloroflexi Dehalococcoidia Dehalococcoidales -
RF1_DEHM1
Dehalococcoides mccartyi (strain ATCC BAA-2266 / KCTC 15142 / 195) (Dehalococcoides ethenogenes (strain 195)) Bacteria Chloroflexi Dehalococcoidia Dehalococcoidales -
RF1_PARL1
Parvibaculum lavamentivorans (strain DS-1 / DSM 13023 / NCIMB 13966) Bacteria Proteobacteria Alphaproteobacteria Rhizobiales -
RF1_RICAH
Rickettsia akari (strain Hartford) Bacteria Proteobacteria Alphaproteobacteria Rickettsiales -
RF1_RICTY
Rickettsia typhi (strain ATCC VR-144 / Wilmington) Bacteria Proteobacteria Alphaproteobacteria Rickettsiales
Дополнительные материалы
Сравнение выравниваний.
В данной части задания были сравнены два выравнивания: множественное пяти выше представленных белков и парное двух самых далеких из них. Для парного выравнивания были выбраны два следующих белка: RF1_PARL1 и RF1_RICTY. Они были выбраны из-за того, что в большинстве случаев последовательности именно этих белков вызывали в выравнивании неполную консервативность данной позиции (функциональную), хотя они и входят в одну группу Alphaproteobacteria и в выравнивании есть последовательности более далеких организмов, чем последовательности этих двух. Выравнивания были получены коммандами needle (глобальное), water (локальное) и muscle (множественное, в нашем случае выравнивание только двух последовательностей). Сравнение выравниваний было получено командами:
user@ubuntu:~$ muscle -profile -in1 global.fasta -in2 local.fasta -out n-w.fastauser@ubuntu:~$ muscle -profile -in1 global.fasta -in2 n-w.fasta -out comparison.fasta
Выравнивания (рисунок 3) во многом похожи между собой. Локальное выравнивание (третья и четвертая последовательности на рисунке 3) имеет гэп в самом начале (M-[IS]-[PF]-[ES] отсутствует) и в самом конце (G-D-E-A у последовательности RF1_PARL1). Других различий (в инделях) у выравниваний практически нет, кроме инделя 68-70 в множественном выравнивании (первая и вторая последовательности на рисунке 3) у последовательности RF1_PARL1 и инделей 73-74 в глобальном (пятая и шестая последовательности на рисунке 3) и локальном.
В остальном, выравнивания полностью совпадают. Также можно заметить, что needle ведет себя в моем случае более похоже на muscle, чем water. То есть, поведение needle — нечто среднее в моем случае между поведением water и muscle.
В общем, можно сказать, что:
- Алгоритм множественного выравнивания сдвигает аргинин R с 68 позиции (у локального и глобального) на 71 позицию из-за трех последовательных гэпов, стоящих перед этим аргинином (в множественном выравнивании с гомологами алгоритм посчитал, что у последовательности RF1_PARL1 произошла делеция с 68 позиции по 70 позицию);
- У последовательностей глобального и локального выравниваний происходит сдвиг аспарагиновой кислоты 70, метионина 71, аргинина 72 (D-M-A) на одну позицию вправо из-за гэпа 69 у последовательности RF_PARL1. Также, после позиции 73 алгоритмы глобального и локального выравниваний поставили два гэпа (74 и 75 позиции). То есть, здесь мы можем сказать, что множественное выравнивание более успешно в плане выстраивания эволюционных событий, а локальное и глобальное выравнивания допускают большее количество ошибок;
- Алгоритм локального выравнивания отсекает первые 4 аминокислоты у обеих последовательностей (M-I-P-E у RF1_PARL1 и M-S-F-S у RF1_RICTY) и четыре последних аминокислоты (G-D-E-A) у последовательности RF1_PARL1. То есть, алгоритм посчитал, что начальные и концевые участки последовательностей не имеют сходства.