Практикум #11. Алгоритмы выравнивания

23 апреля 2019 г.

Практикум #11. Алгоритмы выравнивания, множественные выравнивания.

Целью данного практикума является практика в выполнении выравниваний: глобального по алгоритму и локального по алгоритму .
Для выполнения работы было использовано программное обеспечение с открытым исходным кодом Emboss, а именно:

  • Комманда needle(игла)
    – глобальное выравнивание;
  • Комманда water(вода)
    – локальное выравнивание.

Также была использована комманда muscle – множественное выравнивание.

Задание 1. Сравнение выравнивания гомологичных белков и негомологичных белков

Что и как было сделано?

Белки искал на сайте Uniprot по запросу:
(organism:"Escherichia coli (strain K12) [83333]"
OR organism:"Bacillus subtilis (strain 168) [224308]")
AND reviewed:yes

Результат поиска отсортировал по ID. Гомологичность белков отслеживал по мнемонике функций, отраженной в идентификаторах последовательностей. Дополнительно, кроме комманд needle и water, пользовался коммандой infoalign для получения длин последовательностей и для записей выравниваний в fasta-формате. Далее просматривал выравнивания в программе Jalview. Результат – в таблице pr11_term2.xlsx.

Выравнивание гомологичных последовательностей

Для выравниваний данного типа я взял следующие белки:

  1. 6PGL_BACSU & 6PGL_ECOLI
    6-phosphogluconolactonase 349; 331 а. о.
  2. AGAL_BACSU & AGAL_ECOLI
    Alpha-galactosidase 432; 451 а. о.
  3. APT_BACSU & APT_ECOLI
    Adenine phosphoribosyltransferase 170; 183 а. о.
  4. CHEA_BACSU & CHEA_ECOLI
    Chemotaxis protein CheAe 672; 654 а. о.
  5. CSPC_BACSU & CSPC_ECOLI
    Cold shock protein CspC; Cold shock-like protein CspC 66; 69 а. о.
В списке последовательно отображены идентификаторы первого и второго белка, затем имена белков. Под идентификаторами белков последовательно отображена длина каждого белка из пары, в аминокислотных остатках.

Полные результаты глобального выравнивания в таблице 1, локального - в таблице 2. Папка с глобальными выравниваниями: first_homologus. Папка с локальными выравниваниями: second_homologus.

Выравнивание негомологичных последовательностей

Для выравниваний данного типа я взял следующие белки:

  1. RF1_BACSU & DEGS_ECOLI
    Peptide chain release factor 1; Serine endoprotease DegS 356; 355 а. о.
  2. COX2_BACSU & ALR2_ECOLI
    Cytochrome c oxidase subunit 2; Alanine racemase, catabolic 356; 357 а. о.
  3. COTI_BACSU & PLSX_ECOLI
    Spore coat protein I; Phosphate acyltransferase 357; 356 а. о.
  4. FLHB_BACSU & LACI_ECOLI
    Flagellar biosynthetic protein FlhB; Lactose operon repressor 360; 360 а. о.
  5. DHLE_BACSU & YPDF_ECOLI
    Leucine dehydrogenase; Aminopeptidase YpdF 364; 361 а. о.
  6. SKFA_BACSU & RMF_ECOLI
    Sporulation killing factor, SKF; Ribosome modulation factor, RMF 55; 55 а. о.
  7. DEGR_BACSU & RALR_ECOLI
    Regulatory protein DegR; Endodeoxyribonuclease toxin RalR 60; 64 а. о.
  8. COPZ_BACSU & CCMD_ECOLI
    Copper chaperone CopZ; Heme exporter protein D 69; 69 а. о.
  9. CSRA_BACSU & PSPB_ECOLI
    Translational regulator CsrA; Phage shock protein B 74; 74 а. о.
  10. COTD_BACSU & FEOA_ECOLI
    Spore coat protein D, Fe(2+) transport protein A 75; 75 а. о.
В списке последовательно отображены идентификаторы первого и второго белка, затем имена белков. Под идентификаторами белков последовательно отображена длина каждого белка из пары, в аминокислотных остатках.

Полные результаты глобального выравнивания в таблице 3, локального - в таблице 4. Папка с глобальными выравниваниями: first_nonhomologus. Папка с локальными выравниваниями: second_nonhomologus.

Дополнительные материалы
Ниже представлены результаты задания 1 в виде таблиц. Строки - парные выравнивания, столбцы - характеристики выравниваний. Обозначения:
  • Protein Name(-s) - название белков на английском (для гомологичных белков общее, для негомологичных - названия двух белков через запятую);
  • Program - использованная программа для выравнивания;
  • ID 1 - идентификатор первого белка;
  • ID 2 - идентификатор второго белка;
  • Score - очки выравнивания двух белков;
  • % Identity - соответствие двух белков, в процентах;
  • % Similarity - схожесть двух белков, в процентах;
  • Gap symbols (-) - количество символов пропуска в выравнивании;
  • Indels - количество блоков последовательных (неразрывных) пропусков;
  • % Coverage 1 - покрытие выравниванием первого белка (для глобального всегда 100%);
  • % Coverage 2 - покрытие выравниванием второго белка (для глобального всегда 100%).
# Protein Name(-s) Program ID 1 ID 2 Score % Identity % Similarity Gap symbols (-) Indels % Coverage 1 % Coverage 2
0 Enolase needle ENO_ECOLI ENO_BACSU 1351.0 62.1 74.8 20 5 100.0 100.0
1 6-phosphogluconolactonase needle 6PGL_BACSU 6PGL_ECOLI 304.5 25.3 42.0 62 6 100.0 100.0
2 Alpha-galactosidase needle AGAL_BACSU AGAL_ECOLI 1066.0 48.6 63.9 19 6 100.0 100.0
3 Adenine phosphoribosyltransferase needle APT_BACSU APT_ECOLI 441.5 50.3 61.2 13 3 100.0 100.0
4 Chemotaxis protein CheAe needle CHEA_BACSU CHEA_ECOLI 1042.5 33.9 56.7 68 11 100.0 100.0
5 Cold shock protein CspC; Cold shock-like protein needle CSPC_BACSU CSPC_ECOLI 186.0 53.6 65.2 3 2 100.0 100.0
Таблица 1.
Глобальное выравнивание гомологичных последовательностей
# Protein Name(-s) Program ID 1 ID 2 Score % Identity % Similarity Gap symbols (-) Indels % Coverage 1 % Coverage 2
0 Enolase water ENO_ECOLI ENO_BACSU 1359.0 64.1 77.2 7 3 98.1 97.9
1 6-phosphogluconolactonase water 6PGL_BACSU 6PGL_ECOLI 317.0 30.6 48.7 16 5 75.1 76.1
2 Alpha-galactosidase water AGAL_BACSU AGAL_ECOLI 1070.0 49.7 65.1 14 4 98.8 97.8
3 Adenine phosphoribosyltransferase water APT_BACSU APT_ECOLI 450.0 56.2 66.7 0 0 95.3 88.5
4 Chemotaxis protein CheAe water CHEA_BACSU CHEA_ECOLI 1046.5 34.7 57.9 54 11 99.7 97.6
5 Cold shock protein CspC; Cold shock-like protein water CSPC_BACSU CSPC_ECOLI 193.0 59.7 72.6 1 1 92.4 89.9
Таблица 2.
Локальное выравнивание гомологичных последовательностей
# Protein Name(-s) Program ID 1 ID 2 Score % Identity % Similarity Gap symbols (-) Indels % Coverage 1 % Coverage 2
0 General stress protein 13, Aldehyde-alcohol dehydrogenase needle GS13_BACSU ADHE_ECOLI 28.0 4.2 6.7 733 25 100.0 100.0
1 Peptide chain release factor 1; Serine endoprotease DegS needle RF1_BACSU DEGS_ECOLI 14.5 4.9 7.7 505 10 100.0 100.0
2 Cytochrome c oxidase subunit 2; Alanine racemase, catabolic needle COX2_BACSU ALR2_ECOLI 15.0 2.4 3.1 624 6 100.0 100.0
3 Spore coat protein I; Phosphate acyltransferase needle COTI_BACSU PLSX_ECOLI 27.0 7.1 13.5 411 13 100.0 100.0
4 Flagellar biosynthetic protein FlhB; Lactose operon repressor needle FLHB_BACSU LACI_ECOLI 23.5 1.5 2.6 642 3 100.0 100.0
5 Leucine dehydrogenase; Aminopeptidase YpdF needle DHLE_BACSU YPDF_ECOLI 22.0 5.8 9.7 517 13 100.0 100.0
6 Sporulation killing factor, SKF; Ribosome modulation factor, RMF needle SKFA_BACSU RMF_ECOLI 12.0 5.4 13.0 74 3 100.0 100.0
7 Regulatory protein DegR; Endodeoxyribonuclease toxin RalR needle DEGR_BACSU RALR_ECOLI 5.0 0.8 1.7 116 2 100.0 100.0
8 Copper chaperone CopZ; Heme exporter protein D needle COPZ_BACSU CCMD_ECOLI 8.0 3.7 12.8 80 3 100.0 100.0
9 Translational regulator CsrA; Phage shock protein B needle CSRA_BACSU PSPB_ECOLI 12.5 16.8 27.4 42 6 100.0 100.0
10 Spore coat protein D, Fe(2+) transport protein A needle COTD_BACSU FEOA_ECOLI 10.5 8.2 10.7 94 5 100.0 100.0
Таблица 3.
Глобальное выравнивание негомологичных последовательностей
# Protein Name(-s) Program ID 1 ID 2 Score % Identity % Similarity Gap symbols (-) Indels % Coverage 1 % Coverage 2
0 General stress protein 13, Aldehyde-alcohol dehydrogenase water GS13_BACSU ADHE_ECOLI 41.5 22.6 38.7 43 7 77.7 14.6
1 Peptide chain release factor 1; Serine endoprotease DegS water RF1_BACSU DEGS_ECOLI 34.0 21.7 60.9 0 0 6.5 6.5
2 Cytochrome c oxidase subunit 2; Alanine racemase, catabolic water COX2_BACSU ALR2_ECOLI 34.5 23.3 40.0 15 4 21,6 24,2
3 Spore coat protein I; Phosphate acyltransferase water COTI_BACSU PLSX_ECOLI 42.0 24.2 44.4 9 3 27,5 25,5
4 Flagellar biosynthetic protein FlhB; Lactose operon repressor water FLHB_BACSU LACI_ECOLI 40.5 20.0 39.2 27 6 26.4 32.8
5 Leucine dehydrogenase; Aminopeptidase YpdF water DHLE_BACSU YPDF_ECOLI 36.0 15.1 39.7 17 5 39.6 36.3
6 Sporulation killing factor, SKF; Ribosome modulation factor, RMF water SKFA_BACSU RMF_ECOLI 20.0 42.9 85.7 0 0 12.7 12.7
7 Regulatory protein DegR; Endodeoxyribonuclease toxin RalR water DEGR_BACSU RALR_ECOLI 16.0 28.6 85.7 0 0 11.7 10.9
8 Copper chaperone CopZ; Heme exporter protein D water COPZ_BACSU CCMD_ECOLI 14.0 21.1 57.9 1 1 27.5 26
9 Translational regulator CsrA; Phage shock protein B water CSRA_BACSU PSPB_ECOLI 27.5 34.6 42.3 6 1 27.0 35.1
10 Spore coat protein D, Fe(2+) transport protein A water COTD_BACSU FEOA_ECOLI 24.0 44.4 66.7 0 0 12.0 12.0
Таблица 4.
Локальное выравнивание негомологичных последовательностей

Выводы

В случае глобального выравнивания белков мы можем много чего сказать. Во-первых, в среднем у гомологичных белков достаточно большой процент схожести (Similarity) > ~ 70% и соответствия (Identity) > ~ 50%. Во-вторых, большое количество очков (Score) - в среднем, на 2 порядка больше, чем у негомологичных. В третьих, малое количество инделей ( ~ 3), в то время, как у негомологичных больше ( ~ 6). Про гэпы довольно сложно судить, так как один шаг эволюции линейно не зависит от их количества, здесь имеется лишь косвенная связь.

Про локальные выравнивания мы можем сказать, что все вышесказанное для них тоже присуще. Кроме того, покрытие (Coverage) тоже довольно важно. Чем оно больше, тем более последовательность как целое гомологично другому белку, тем меньше произошло больших инсерций или делеций.

Также можно заметить, что в глобальных и особенно в локальных выравниваниях короткие белки (№ 6-10 в таблицах 3 и 4) получают довольно большой процент сходства.

Задание 2. Отличия в парных выравниваниях последовательностей одних и тех же белков, построенных разными программами

Что было сделано?

Сначала нашли интересующую нас мнемонику белка. Поиск был осуществлен коммандой в терминале:
user@ubuntu:~$ infoseq 'sw:*_human' -only -name -length -out human.txt

Затем скачали все последовательности из Swissprot с одной мнемоникой. Произвели выравнивание программой muscle. Импортировали в одно окно Jalview это выравнивание. Затем произвели раскраску колонок в двух режимах: Clustal (рис. 1) и Blossum62 (рис. 2). Раскрашены только те колонки, в которых процент соответствия равен или превышает 80%.

Множественное выравнивание.

В данном задании была выбрана мнемоника RF1. По ней в банке последовательностей Swissprot были найдены белки Peptide chain release factor 1 из разных организмов:

  1. RF1_DEHMC
    Dehalococcoides mccartyi (strain CBDB1) Bacteria Chloroflexi Dehalococcoidia Dehalococcoidales
  2. RF1_DEHM1
    Dehalococcoides mccartyi (strain ATCC BAA-2266 / KCTC 15142 / 195) (Dehalococcoides ethenogenes (strain 195)) Bacteria Chloroflexi Dehalococcoidia Dehalococcoidales
  3. RF1_PARL1
    Parvibaculum lavamentivorans (strain DS-1 / DSM 13023 / NCIMB 13966) Bacteria Proteobacteria Alphaproteobacteria Rhizobiales
  4. RF1_RICAH
    Rickettsia akari (strain Hartford) Bacteria Proteobacteria Alphaproteobacteria Rickettsiales
  5. RF1_RICTY
    Rickettsia typhi (strain ATCC VR-144 / Wilmington) Bacteria Proteobacteria Alphaproteobacteria Rickettsiales
Выше был представлен список белков для множественного выравнивания. Сначала идет идентификатор последовательности, затем из какого организма он был получен и таксономия этого организма.
Дополнительные материалы
alignment1
Рисунок 1.
Множественное выравнивание из программы muscle, просмотр в Jalview, раскраска Clustal
alignment2
Рисунок 2.
Множественное выравнивание из программы muscle, просмотр в Jalview, раскраска Blossum62

Сравнение выравниваний.

В данной части задания были сравнены два выравнивания: множественное пяти выше представленных белков и парное двух самых далеких из них. Для парного выравнивания были выбраны два следующих белка: RF1_PARL1 и RF1_RICTY. Они были выбраны из-за того, что в большинстве случаев последовательности именно этих белков вызывали в выравнивании неполную консервативность данной позиции (функциональную), хотя они и входят в одну группу Alphaproteobacteria и в выравнивании есть последовательности более далеких организмов, чем последовательности этих двух. Выравнивания были получены коммандами needle (глобальное), water (локальное) и muscle (множественное, в нашем случае выравнивание только двух последовательностей). Сравнение выравниваний было получено командами:

user@ubuntu:~$ muscle -profile -in1 global.fasta -in2 local.fasta -out n-w.fasta
user@ubuntu:~$ muscle -profile -in1 global.fasta -in2 n-w.fasta -out comparison.fasta
compare
Рисунок 3.
Сравнение выравниваний программ muscle (первая и вторая последовательности), water (третья и четвертая последовательности), needle (пятая и шестая последовательности)

Выравнивания (рисунок 3) во многом похожи между собой. Локальное выравнивание (третья и четвертая последовательности на рисунке 3) имеет гэп в самом начале (M-[IS]-[PF]-[ES] отсутствует) и в самом конце (G-D-E-A у последовательности RF1_PARL1). Других различий (в инделях) у выравниваний практически нет, кроме инделя 68-70 в множественном выравнивании (первая и вторая последовательности на рисунке 3) у последовательности RF1_PARL1 и инделей 73-74 в глобальном (пятая и шестая последовательности на рисунке 3) и локальном.

В остальном, выравнивания полностью совпадают. Также можно заметить, что needle ведет себя в моем случае более похоже на muscle, чем water. То есть, поведение needle — нечто среднее в моем случае между поведением water и muscle.

В общем, можно сказать, что:

  • Алгоритм множественного выравнивания сдвигает аргинин R с 68 позиции (у локального и глобального) на 71 позицию из-за трех последовательных гэпов, стоящих перед этим аргинином (в множественном выравнивании с гомологами алгоритм посчитал, что у последовательности RF1_PARL1 произошла делеция с 68 позиции по 70 позицию);
  • У последовательностей глобального и локального выравниваний происходит сдвиг аспарагиновой кислоты 70, метионина 71, аргинина 72 (D-M-A) на одну позицию вправо из-за гэпа 69 у последовательности RF_PARL1. Также, после позиции 73 алгоритмы глобального и локального выравниваний поставили два гэпа (74 и 75 позиции). То есть, здесь мы можем сказать, что множественное выравнивание более успешно в плане выстраивания эволюционных событий, а локальное и глобальное выравнивания допускают большее количество ошибок;
  • Алгоритм локального выравнивания отсекает первые 4 аминокислоты у обеих последовательностей (M-I-P-E у RF1_PARL1 и M-S-F-S у RF1_RICTY) и четыре последних аминокислоты (G-D-E-A) у последовательности RF1_PARL1. То есть, алгоритм посчитал, что начальные и концевые участки последовательностей не имеют сходства.