Анализ протеомов при помощи инструмента EMBOSS

EMBOSS (European Molecular Biology Open Software Suite) — это специальный пакет программного обеспечения, созданный для обработки биологических данных. При помощи этого пакета можно провести анализ геномов, протеомов, транскриптомов и проч.

Были проанализированы два протеома: UP000000625 (E. coli, str. K12) и UP000002744 (L. asiaticus, str. psy62). Были установлены частоты встречаемости различных аминокислот в этих протеомов (см. таблицы 1, 2 и 3). В протеоме UP000000625 всего 4306 белков (1356086 аминокислотных остатков), в протеоме UP000002744 — 1102 белка (316885 аминокислотных остатков).

Таблица 2. Частоты встречаемости различных аминокислот в протеомах L. asiaticus, str. psy62 (I) и E. coli, str. K12 (II)
Аминокислота
Количество встреч (I)
Частота, % (I)
Количество встреч (II)
Частота, % (II)
Δ(E. coli - L. asiaticus), %
L303449,5714473010,671,10
I281168,87815056,01-2,86
S257328,12786845,80-2,32
K204326,45597504,41-2,04
V203856,43959227,070,64
A201366,351290379,513,16
G196196,191000067,371,18
E184075,80781495,76-0,05
D169745,35698525,15-0,21
R166695,26747345,510,25
T147694,66732165,400,74
N145954,60535033,95-0,66
F144124,54527583,89-0,657
P117853,72600124,430,71
Q112683,56602124,440,88
Y96463,04385852,85-0,20
M85672,70382322,820,12
H74432,35307342,27-0,08
C44111,39156981,16-0,23
W31751,00207641,530,53
U0030,00020,0002

Зелёным цветом на таблице обозначены топ-3 аминокислоты, которых в L. asiaticus больше, чем в E. coli, красным — наоборот. Достаточно интересной задачей является интерпретация полученных результатов.

Первое предположение, которое можно сделать, — это то, что вариабельность в аминокислотном составе протеома обусловлена какими-то физическими условиями, в которых существуют бактерии: разнице в температуре, pH или других условиях среды.

Было предположено, что аминокислотный состав протеома определён в первую очередь из-за каких-то ограничений на геном, кодирующий такой протеом. Для этого при помощи различных инструментов EMBOSS при сопоставлении генома и протеома было установлено, какие именно кодоны кодируют определённые аминокислоты (см. таблицу 4). Несложно заметить тенденцию: когда есть выбор, какой именно кодон использовать для кодирования аминокислоты, в E. coli отдаётся предпочтение кодонам с наибольшим содержанием водородных связей. Следовательно, для E. coli важен высокий GC-состав генома. В случае с L. asiaticus такой тенденции не наблюдается.

Низкое значение GC-состава объяснить достаточно несложно: большинство транзиций — это транзиции с GC на AT. Сложнее объяснить эволюционный вектор, направленный на повышение GC-состава генома (как в случае с кишечной палочкой). Обнаружено, что корреляции между термофильностью бактерии и её GC-составом практически нет; в том же исследовании была выдвинута гипотеза, согласно которой это зависит от наличие полимеразы DnaE2. Однако далеко не все бактерии с повышенным GC-составом имеют такую полимеразу, поэтому вопрос и по сей день остаётся спорным.

В нашем случае полимеразу DnaE2 не имеет ни один из организмов. Можно построить филогенетическое дерево бактерий (на основании каких-либо консервативных генов), имеющих полимеразу DnaE2, и E. coli и посмотреть, входит ли кишечная палочка в группу с синапоморфией в виде наличия DnaE2. Если да, то утрата кишечной палочкой DnaE2 вторична и повышенный GC-состав генома можно объяснить предковым состоянием. Однако это тема для другой работы.

Таблица 4. Частоты встречаемости различных кодонов при кодировании различных аминокислот
КодонАКЧастота, E. coliЧисло, E. coliЧастота, L. asiaticusЧисло, L. asiaticusЧисло GC-нуклеотидовΔ(E. coli - L. asiaticus), %
TAA*0,6526780,5156700,14
TAG*0,072870,212281-0,14
TGA*0,2811780,2831410,00
GCAA0,21265350,3468192-0,13
GCTA0,16199990,4080682-0,24
GCCA0,27338980,12235730,15
GCGA0,36449000,15298530,21
TGTC0,4467060,7633451-0,31
TGCC0,5684820,25108820,31
GATD0,63421350,86146801-0,24
GACD0,37252140,14237220,24
GAAE0,69523300,74137511-0,05
GAGE0,31234560,26474420,05
TTTF0,57293040,79114540-0,22
TTCF0,43218270,21301510,22
GGAG0,11102160,4179902-0,30
GGTG0,34326550,32637520,01
GGCG0,41393660,11214930,30
GGGG0,15144640,1631863-0,01
CATH0,57169370,7959201-0,22
CACH0,43128140,21156520,22
ATAI0,0753450,3085140-0,23
ATTI0,51401710,51145130-0,01
ATCI0,42333310,18520110,24
AAAK0,77442360,731490100,04
AAGK0,23133840,2756261-0,04
TTAL0,13180850,3296460-0,19
CTAL0,0450720,1029721-0,06
CTTL0,10144030,2371621-0,13
TTGL0,13179920,2164191-0,08
CTCL0,11147020,09260920,02
CTGL0,50703900,06175820,44
ATGM1,00367001,00840310,00
AATN0,45227560,80117230-0,35
AACN0,55283190,20295310,35
CCAP0,19110580,2934572-0,10
CCTP0,1691280,4957602-0,33
CCCP0,1271380,12147230,00
CCGP0,53309690,10115030,43
CAAQ0,35202080,7382881-0,39
CAGQ0,65381520,27305320,39
AGAR0,0324890,2135321-0,18
AGGR0,0213630,0813412-0,06
CGAR0,0645230,1423752-0,08
CGTR0,38278430,36605220,02
CGCR0,40293010,14234230,26
CGGR0,1069830,07109630,03
AGTS0,15113220,1640451-0,01
TCAS0,1291540,1744721-0,05
TCTS0,15109860,41105641-0,26
AGCS0,28211310,07180920,21
TCCS0,15113210,10258020,05
TCGS0,16117470,09234920,06
ACAT0,1389750,3552181-0,22
ACTT0,16115770,3450641-0,18
ACCT0,44309720,15215920,29
ACGT0,27189700,16241420,11
GTAV0,15143250,2754871-0,11
GTTV0,26240310,4387991-0,17
GTCV0,22202270,14282220,08
GTGV0,37347960,17347420,20
TGGW1,00200601,00320120,00
TATY0,57210550,8178240-0,24
TACY0,43160790,19188110,24

Возвращаясь к разнице в аминокислотах и обращая внимание на всё вышесказанное, можно сказать, что разница в аминокислотном составе протеомов может быть обусловлена различной предрасположенностью бактерий к GC-составу их генома. В результате этого у E. coli есть дополительный эволюционный вектор в сторону аминокислот, которые кодируются кодонами с повышенным содержанием GC: так, у E. Coli содержится больше остатков аланина, чем у L. asiaticus (аланин кодируют кодоны с двумя\тремя GC-нуклеотидами), у L. asiaticus же — остатков изолейцина (ноль\один GC-нуклеотид в кодоне), серина (один\два GC-нуклеотида в кодоне) и лизина (ноль\один GC-нуклеотид).

© Исаев Сергей,