html { overflow-y: scroll; } .colortext { color: red; }

Учебный сайт Лидии Гаркуль

Выравнивание последовательностей белка

В данном практикуме с помощью команд из EMBOSS (needle, water), Jalview и UniProt были выполнены выравнивания некоторых белков.

1.Глобальное парное выравнивание гомологичных белков

С помощью следующей команды из UniProt были скачены два списка идентификаторов (ID): всех аннотированных (Reviewed, то есть из Swiss-Prot) записей, чей идентификатор кончается на _ECOLI (то есть из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (то есть из штамма 168 сенной палочки)

lidia@kodomo:~/public_html/term2/Jalview_pr10$ infoseq 'sw:*_ecoli' -only -name -out ECOLI.txt
Display basic information about sequences
lidia@kodomo:~/public_html/term2/Jalview_pr10$ infoseq 'sw:*_bacsu' -only -name -out BACSU.txt
Display basic information about sequences
                

Ссылка на ECOLI.txt. Ссылка на BACSU.txt.

Далее с помощью Python был получен файл с мнемониками, которые имеются у белков из E.coli и у белков из Bacillus subtilis. (ссылка на полученный файл. (нижние подчеркивания оставлены специально, чтобы убедиться, что программа не отрезала часть мнемоник)

Table. 1. Характеристики глобального парного выравнивания трёх пар белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
1,4-dihydroxy-2-naphthoate octaprenyltransferase MENA_ECOLI MENA_BACSU 242.0 24.9 43.4 49 (14.7%) 12
Arginine--tRNA ligase SYR_ECOLI SYR_BACSU 490.5 27.8 44.6 99 (16.1%) 26
UDP-glucose 4-epimerase GALE_ECOLI GALE_BACSU 1032.0 56.8 70.6 3 (0.9%) 2

Далее с помощью программы needle при параметрах по умолчанию было выполнено глобальное выравнивание трех выбранных пар белков с совпадающей мнемоникой. Результаты выравниваний представлены в таблице 1 (Table. 1.).

lidia@kodomo:~/public_html/term2/Jalview_pr10$ needle sw:mena_ecoli sw:mena_bacsu mena.needle -auto
            

2. Локальное парное выравнивание гомологичных белков

Те же пары белков были выровнены программой water (локальное выравнивание), также при параметрах по умолчанию. Результаты представлены в таблице 2 (Table. 2.).

lidia@kodomo:~/public_html/term2/Jalview_pr10$ water sw:mena_ecoli sw:mena_bacsu mena.water -auto
            

Table. 2. Характеристики локального парного выравнивания трёх пар белков.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
1,4-dihydroxy-2-naphthoate octaprenyltransferase MENA_ECOLI MENA_BACSU 245.0 26.2 45.4 38 (12.0%) 9 97.7% 94.9%
Arginine--tRNA ligase SYR_ECOLI SYR_BACSU 490.5 27.8 44.6 99 (16.1%) 23 100% 100%
UDP-glucose 4-epimerase GALE_ECOLI GALE_BACSU 1033.0 57.4 71.4 1 (0.3%) 1 99.4% 98.8%

3. Результат применения программ выравнивания к неродственным белкам

В данной части практикума была взята пара белков с разной мнемоникой - ARAD_ECOLI и RELA_BACSU. Эта пара была выровнена аналогично - глобально (пункт 1) и локально (пункт 2). Результаты записаны в таблице 3 (Table. 3.).

Table. 3. Характеристики локального и глобального выравниваний пары белков с разными мнемониками.
Глобальное выравнивание
Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels
L-ribulose-5-phosphate 4-epimerase AraD GTP pyrophosphokinase ARAD_ECOLI RELA_BACSU 35.0 6.5 11.1 623 (78.5%) 15
Локальное выравнивание
Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
L-ribulose-5-phosphate 4-epimerase AraD GTP pyrophosphokinase ARAD_ECOLI RELA_BACSU 52.5 20.3 30.1 61 (45.9%) 3 55.0% 10.6%

Из таблицы видно, что данные белки не являются гомологичными. Об этом свидительствуют малые показатели по параметрам Score, % Identity, % Similarity и большое процентное содержание Gaps. При этом результаты локального выравнивания несколько лучше. Это связано с тем, что сами молекулы по длине различаются более чем в 2 раза (231 а.о. у ARAD_ECOLI и 734 а.о. у RELA_BACSU). Поэтому в глобальном выравнивании гораздо больше gaps, а процент покрытия второй молекулы такой маленький.

4. Множественное выравнивание белков и импорт в Jalview

Возьмем мнемонику GALE из первого задания (Protein name: UDP-glucose 4-epimerase для GALE_ECOLI).В базе данных UniProt с помощью запроса mnemonic:gale_* были найдены все белки, чьи идентификаторы начинаются с этой мнемоники. Всего таких белков 44, но среди них 4 записи имеют статус "Obsolete/Deleted Entry". Выберем пять из них - GALE_ECOLI (ID P09147); GALE_ECOLI (ID P5518); GALE_RAT (ID P18645); GALE_HUMAN (ID Q14376); GALE_MYCTO (ID P9WN66). С помощью UniProt получим их выравнивание в fasta формате. Далее загрузим ее в Jalviev и раскрасим по проценту идентичности. Результат представлен на Fig. 1., также проект доступен по ссылке.

align
Fig. 1. Множественное выравнивание в Jalview.

Из выравнивания видно, что первые 4 белка (GALE_ECOLI (ID P09147); GALE_ECOLI (ID P5518); GALE_RAT (ID P18645); GALE_HUMAN (ID Q14376);) во многом совпадают. Можно выделить нескольно консервативных участков. Столбцы 5 - 18 совпадают с точностью до двух замен - изолейцина (I) с валином (V) и серина (S) с аланином (A). Обе эти замены имеют положительные веса в матрице BLOSUM 62 [1] (V-I = 3; S-A = 1), что говорит о достаточной вероятности этих событий. Также полностью совпадают 85 - 98; столбцы 199 - 212 совпадают с точностью до замены N-Q (из матрицы вес этой замены равен 0). Пятый белок GALE_MYCTO (ID P9WN66) из организма Mycobacterium tuberculosis (strain CDC 1551 / Oshkosh) имеет меньше совпадений. В упомянутых выше консервативных участках этот белок имеет много замен с отрицательными весами. Например, в столбце 5 (участок 5 - 18) коэффициент A-I равен -1; в полностью консервативном диапозоне 85 - 98 имеет 8 несовпадений, веса некоторых из них отрицательны: L-Q = -2; I-K = -3; R-G = -2. Стоит отметить, что длина пятого белка меньше остальных, что также несколько выбивает его из ряда сравниваемых молекул.

5. Выравнивание своего белка с его гомологом

В этой части задания выполним выравнивание белка из предыдущего практикума с его гомологом. Для поиска гомологичного белка выполним поиск в UniProt по мнемонике исследуемого белка. У белка Q2GA79_NOVAD из практикума 8 не найдено гомологов таким способом (по запросу mnemonic:q2ga79_*). Поэтому возьмем белок, который изучался в jmol-практикуме HIP_THETI (PDB ID 3A38 был переведет в UniProt ID с помощью Retrieve/ID mapping). По запросу mnemonic:hip_* база данных выдает 22 записи о белках с мнемоникой HIP_. Выберем HIP_ALLVD выровняем с исходным белком с помощью needle и water.

Table. 4. Характеристики локального и глобального выравниваний пары гомологичных белков.
Выравнивание Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle High-potential iron-sulfur protein HIP_THETI HIP_ALLVD 398.5 60.7 63.1 39 (32.0%) 2 - -
water High-potential iron-sulfur protein HIP_THETI HIP_ALLVD 398.5 87.1 90.6 2 (2.4%) 1 100% 69.7%

Глобальное выравнивание. Ссылка на полный файл.

            HIP_THETI          1 -------------------------------------AAPANAVTADDPT     13
                                                                      :||||||.|||.|
            HIP_ALLVD          1 MSDKPISKSRRDAVKVMLGTAAAIPMINLVGFGTARASAPANAVAADDAT     50
            
            HIP_THETI         14 AIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQANV--GEGDWKGC     61
                                 ||||||||||||||||||||||||||||||||||||||:.  ...:||||
            HIP_ALLVD         51 AIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQADAAGATDEWKGC    100
                    
            HIP_THETI         62 QLFPGKLINVNGWCASWTLKAG     83
                                 ||||||||||||||||||||||
            HIP_ALLVD        101 QLFPGKLINVNGWCASWTLKAG    122                    
            

Локальное выравнивание. Ссылка на полный файл.


            HIP_THETI          1 AAPANAVTADDPTAIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQ     50
                                 :||||||.|||.||||||||||||||||||||||||||||||||||||||
            HIP_ALLVD         38 SAPANAVAADDATAIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQ     87
            
            HIP_THETI         51 ANV--GEGDWKGCQLFPGKLINVNGWCASWTLKAG     83
                                 |:.  ...:||||||||||||||||||||||||||
            HIP_ALLVD         88 ADAAGATDEWKGCQLFPGKLINVNGWCASWTLKAG    122
            

В локальном выравнивании высокие проценты совпадающих и схожих остатков, достаточно высокие доли перекрывания для обоих белков говорят нам об успешном выравнивании. В глобальном выравнивании более низкие проценты объясняются большим инделем в самом начале выравнивания, оттуда же появляется большое число gaps. Но почти полное совпадение отрезка молекул из локального выравнивания (1:38) - (83:122) свидительствует о гомологии этих двух белков.

6. Параметры программ needle и water

Все предыдущие выравнивания были выполнены с параметрами по умолчанию (с добавлением тэга -auto). Посмотрим, какие параметры будут запрашивать программы needle и water, если не истользовать автоматические настройки.

lidia@kodomo:~/public_html/term2/Jalview_pr10$ water sw:hip_theti sw:hip_allvd hip.water
                Smith-Waterman local alignment of sequences
                Gap opening penalty [10.0]: 10.0
                Gap extension penalty [0.5]: 0.5
                

Обе программы запрашивают штраф за открытие gap (Gap opening penalty) - число типа float от 0.000 до 100.000 в случае water; от 1.0 до 100.0 в случае needle. По умолчанию в обеих программах стоит 10.0. Также программы просят ввести штраф за продление инделя (Gap extension penalty) - число типа float от 0.000 до 10.000 для water; от 0.0 до 10.0 для needle (по умолчанию используется 0.5). Дополнительно с помощью тега -datafile можно задать матрицу; по умолчанию используется матрица EBLOSUM62 для белков и матрица EDNAFULL для нуклеотидных последовательностей.

Литература

1. Мартица BLOSUM 62. Ссылка.