html { overflow-y: scroll; } .colortext { color: red; }
В данном практикуме с помощью команд из EMBOSS (needle, water), Jalview и UniProt были выполнены выравнивания некоторых белков.
С помощью следующей команды из UniProt были скачены два списка идентификаторов (ID): всех аннотированных (Reviewed, то есть из Swiss-Prot) записей, чей идентификатор кончается на _ECOLI (то есть из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (то есть из штамма 168 сенной палочки)
lidia@kodomo:~/public_html/term2/Jalview_pr10$ infoseq 'sw:*_ecoli' -only -name -out ECOLI.txt Display basic information about sequences lidia@kodomo:~/public_html/term2/Jalview_pr10$ infoseq 'sw:*_bacsu' -only -name -out BACSU.txt Display basic information about sequences
Ссылка на ECOLI.txt. Ссылка на BACSU.txt.
Далее с помощью Python был получен файл с мнемониками, которые имеются у белков из E.coli и у белков из Bacillus subtilis. (ссылка на полученный файл. (нижние подчеркивания оставлены специально, чтобы убедиться, что программа не отрезала часть мнемоник)
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
1,4-dihydroxy-2-naphthoate octaprenyltransferase | MENA_ECOLI | MENA_BACSU | 242.0 | 24.9 | 43.4 | 49 (14.7%) | 12 |
Arginine--tRNA ligase | SYR_ECOLI | SYR_BACSU | 490.5 | 27.8 | 44.6 | 99 (16.1%) | 26 |
UDP-glucose 4-epimerase | GALE_ECOLI | GALE_BACSU | 1032.0 | 56.8 | 70.6 | 3 (0.9%) | 2 |
Далее с помощью программы needle при параметрах по умолчанию было выполнено глобальное выравнивание трех выбранных пар белков с совпадающей мнемоникой. Результаты выравниваний представлены в таблице 1 (Table. 1.).
lidia@kodomo:~/public_html/term2/Jalview_pr10$ needle sw:mena_ecoli sw:mena_bacsu mena.needle -auto
Те же пары белков были выровнены программой water (локальное выравнивание), также при параметрах по умолчанию. Результаты представлены в таблице 2 (Table. 2.).
lidia@kodomo:~/public_html/term2/Jalview_pr10$ water sw:mena_ecoli sw:mena_bacsu mena.water -auto
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
1,4-dihydroxy-2-naphthoate octaprenyltransferase | MENA_ECOLI | MENA_BACSU | 245.0 | 26.2 | 45.4 | 38 (12.0%) | 9 | 97.7% | 94.9% |
Arginine--tRNA ligase | SYR_ECOLI | SYR_BACSU | 490.5 | 27.8 | 44.6 | 99 (16.1%) | 23 | 100% | 100% |
UDP-glucose 4-epimerase | GALE_ECOLI | GALE_BACSU | 1033.0 | 57.4 | 71.4 | 1 (0.3%) | 1 | 99.4% | 98.8% |
В данной части практикума была взята пара белков с разной мнемоникой - ARAD_ECOLI и RELA_BACSU. Эта пара была выровнена аналогично - глобально (пункт 1) и локально (пункт 2). Результаты записаны в таблице 3 (Table. 3.).
Глобальное выравнивание | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
Protein name 1 | Protein name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | ||
L-ribulose-5-phosphate 4-epimerase AraD | GTP pyrophosphokinase | ARAD_ECOLI | RELA_BACSU | 35.0 | 6.5 | 11.1 | 623 (78.5%) | 15 | ||
Локальное выравнивание | ||||||||||
Protein name 1 | Protein name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
L-ribulose-5-phosphate 4-epimerase AraD | GTP pyrophosphokinase | ARAD_ECOLI | RELA_BACSU | 52.5 | 20.3 | 30.1 | 61 (45.9%) | 3 | 55.0% | 10.6% |
Из таблицы видно, что данные белки не являются гомологичными. Об этом свидительствуют малые показатели по параметрам Score, % Identity, % Similarity и большое процентное содержание Gaps. При этом результаты локального выравнивания несколько лучше. Это связано с тем, что сами молекулы по длине различаются более чем в 2 раза (231 а.о. у ARAD_ECOLI и 734 а.о. у RELA_BACSU). Поэтому в глобальном выравнивании гораздо больше gaps, а процент покрытия второй молекулы такой маленький.
Возьмем мнемонику GALE из первого задания (Protein name: UDP-glucose 4-epimerase для GALE_ECOLI).В базе данных UniProt с помощью запроса mnemonic:gale_* были найдены все белки, чьи идентификаторы начинаются с этой мнемоники. Всего таких белков 44, но среди них 4 записи имеют статус "Obsolete/Deleted Entry". Выберем пять из них - GALE_ECOLI (ID P09147); GALE_ECOLI (ID P5518); GALE_RAT (ID P18645); GALE_HUMAN (ID Q14376); GALE_MYCTO (ID P9WN66). С помощью UniProt получим их выравнивание в fasta формате. Далее загрузим ее в Jalviev и раскрасим по проценту идентичности. Результат представлен на Fig. 1., также проект доступен по ссылке.
Из выравнивания видно, что первые 4 белка (GALE_ECOLI (ID P09147); GALE_ECOLI (ID P5518); GALE_RAT (ID P18645); GALE_HUMAN (ID Q14376);) во многом совпадают. Можно выделить нескольно консервативных участков. Столбцы 5 - 18 совпадают с точностью до двух замен - изолейцина (I) с валином (V) и серина (S) с аланином (A). Обе эти замены имеют положительные веса в матрице BLOSUM 62 [1] (V-I = 3; S-A = 1), что говорит о достаточной вероятности этих событий. Также полностью совпадают 85 - 98; столбцы 199 - 212 совпадают с точностью до замены N-Q (из матрицы вес этой замены равен 0). Пятый белок GALE_MYCTO (ID P9WN66) из организма Mycobacterium tuberculosis (strain CDC 1551 / Oshkosh) имеет меньше совпадений. В упомянутых выше консервативных участках этот белок имеет много замен с отрицательными весами. Например, в столбце 5 (участок 5 - 18) коэффициент A-I равен -1; в полностью консервативном диапозоне 85 - 98 имеет 8 несовпадений, веса некоторых из них отрицательны: L-Q = -2; I-K = -3; R-G = -2. Стоит отметить, что длина пятого белка меньше остальных, что также несколько выбивает его из ряда сравниваемых молекул.
В этой части задания выполним выравнивание белка из предыдущего практикума с его гомологом. Для поиска гомологичного белка выполним поиск в UniProt по мнемонике исследуемого белка. У белка Q2GA79_NOVAD из практикума 8 не найдено гомологов таким способом (по запросу mnemonic:q2ga79_*). Поэтому возьмем белок, который изучался в jmol-практикуме HIP_THETI (PDB ID 3A38 был переведет в UniProt ID с помощью Retrieve/ID mapping). По запросу mnemonic:hip_* база данных выдает 22 записи о белках с мнемоникой HIP_. Выберем HIP_ALLVD выровняем с исходным белком с помощью needle и water.
Выравнивание
Protein name
ID 1
ID 2
Score
% Identity
% Similarity
Gaps
Indels
Coverage 1
Coverage 2
needle
High-potential iron-sulfur protein
HIP_THETI
HIP_ALLVD
398.5
60.7
63.1
39 (32.0%)
2
-
-
water
High-potential iron-sulfur protein
HIP_THETI
HIP_ALLVD
398.5
87.1
90.6
2 (2.4%)
1
100%
69.7%
HIP_THETI 1 -------------------------------------AAPANAVTADDPT 13 :||||||.|||.| HIP_ALLVD 1 MSDKPISKSRRDAVKVMLGTAAAIPMINLVGFGTARASAPANAVAADDAT 50 HIP_THETI 14 AIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQANV--GEGDWKGC 61 ||||||||||||||||||||||||||||||||||||||:. ...:|||| HIP_ALLVD 51 AIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQADAAGATDEWKGC 100 HIP_THETI 62 QLFPGKLINVNGWCASWTLKAG 83 |||||||||||||||||||||| HIP_ALLVD 101 QLFPGKLINVNGWCASWTLKAG 122
HIP_THETI 1 AAPANAVTADDPTAIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQ 50 :||||||.|||.|||||||||||||||||||||||||||||||||||||| HIP_ALLVD 38 SAPANAVAADDATAIALKYNQDATKSERVAAARPGLPPEEQHCANCQFMQ 87 HIP_THETI 51 ANV--GEGDWKGCQLFPGKLINVNGWCASWTLKAG 83 |:. ...:|||||||||||||||||||||||||| HIP_ALLVD 88 ADAAGATDEWKGCQLFPGKLINVNGWCASWTLKAG 122
В локальном выравнивании высокие проценты совпадающих и схожих остатков, достаточно высокие доли перекрывания для обоих белков говорят нам об успешном выравнивании. В глобальном выравнивании более низкие проценты объясняются большим инделем в самом начале выравнивания, оттуда же появляется большое число gaps. Но почти полное совпадение отрезка молекул из локального выравнивания (1:38) - (83:122) свидительствует о гомологии этих двух белков.
Все предыдущие выравнивания были выполнены с параметрами по умолчанию (с добавлением тэга -auto). Посмотрим, какие параметры будут запрашивать программы needle и water, если не истользовать автоматические настройки.
lidia@kodomo:~/public_html/term2/Jalview_pr10$ water sw:hip_theti sw:hip_allvd hip.water Smith-Waterman local alignment of sequences Gap opening penalty [10.0]: 10.0 Gap extension penalty [0.5]: 0.5
Обе программы запрашивают штраф за открытие gap (Gap opening penalty) - число типа float от 0.000 до 100.000 в случае water; от 1.0 до 100.0 в случае needle. По умолчанию в обеих программах стоит 10.0. Также программы просят ввести штраф за продление инделя (Gap extension penalty) - число типа float от 0.000 до 10.000 для water; от 0.0 до 10.0 для needle (по умолчанию используется 0.5). Дополнительно с помощью тега -datafile можно задать матрицу; по умолчанию используется матрица EBLOSUM62 для белков и матрица EDNAFULL для нуклеотидных последовательностей.
1. Мартица BLOSUM 62. Ссылка.