EMBOSS (European Molecular Biology Open Software Suite) — это специальный пакет программного обеспечения, созданный для обработки биологических данных. При помощи этого пакета можно провести анализ геномов, протеомов, транскриптомов и проч.
Были проанализированы два протеома: UP000000625 (E. coli, str. K12) и UP000002744 (L. asiaticus, str. psy62). Были установлены частоты встречаемости различных аминокислот в этих протеомов (см. таблицы 1, 2 и 3). В протеоме UP000000625 всего 4306 белков (1356086 аминокислотных остатков), в протеоме UP000002744 — 1102 белка (316885 аминокислотных остатков).
L | 30344 | 9,57 | 144730 | 10,67 | 1,10 |
I | 28116 | 8,87 | 81505 | 6,01 | -2,86 |
S | 25732 | 8,12 | 78684 | 5,80 | -2,32 |
K | 20432 | 6,45 | 59750 | 4,41 | -2,04 |
V | 20385 | 6,43 | 95922 | 7,07 | 0,64 |
A | 20136 | 6,35 | 129037 | 9,51 | 3,16 |
G | 19619 | 6,19 | 100006 | 7,37 | 1,18 |
E | 18407 | 5,80 | 78149 | 5,76 | -0,05 |
D | 16974 | 5,35 | 69852 | 5,15 | -0,21 |
R | 16669 | 5,26 | 74734 | 5,51 | 0,25 |
T | 14769 | 4,66 | 73216 | 5,40 | 0,74 |
N | 14595 | 4,60 | 53503 | 3,95 | -0,66 |
F | 14412 | 4,54 | 52758 | 3,89 | -0,657 |
P | 11785 | 3,72 | 60012 | 4,43 | 0,71 |
Q | 11268 | 3,56 | 60212 | 4,44 | 0,88 |
Y | 9646 | 3,04 | 38585 | 2,85 | -0,20 |
M | 8567 | 2,70 | 38232 | 2,82 | 0,12 |
H | 7443 | 2,35 | 30734 | 2,27 | -0,08 |
C | 4411 | 1,39 | 15698 | 1,16 | -0,23 |
W | 3175 | 1,00 | 20764 | 1,53 | 0,53 |
U | 0 | 0 | 3 | 0,0002 | 0,0002 |
Зелёным цветом на таблице обозначены топ-3 аминокислоты, которых в L. asiaticus больше, чем в E. coli, красным — наоборот. Достаточно интересной задачей является интерпретация полученных результатов.
Первое предположение, которое можно сделать, — это то, что вариабельность в аминокислотном составе протеома обусловлена какими-то физическими условиями, в которых существуют бактерии: разнице в температуре, pH или других условиях среды.
Было предположено, что аминокислотный состав протеома определён в первую очередь из-за каких-то ограничений на геном, кодирующий такой протеом. Для этого при помощи различных инструментов EMBOSS при сопоставлении генома и протеома было установлено, какие именно кодоны кодируют определённые аминокислоты (см. таблицу 4). Несложно заметить тенденцию: когда есть выбор, какой именно кодон использовать для кодирования аминокислоты, в E. coli отдаётся предпочтение кодонам с наибольшим содержанием водородных связей. Следовательно, для E. coli важен высокий GC-состав генома. В случае с L. asiaticus такой тенденции не наблюдается.
Низкое значение GC-состава объяснить достаточно несложно: большинство транзиций — это транзиции с GC на AT. Сложнее объяснить эволюционный вектор, направленный на повышение GC-состава генома (как в случае с кишечной палочкой). Обнаружено, что корреляции между термофильностью бактерии и её GC-составом практически нет; в том же исследовании была выдвинута гипотеза, согласно которой это зависит от наличие полимеразы DnaE2. Однако далеко не все бактерии с повышенным GC-составом имеют такую полимеразу, поэтому вопрос и по сей день остаётся спорным.
В нашем случае полимеразу DnaE2 не имеет ни один из организмов. Можно построить филогенетическое дерево бактерий (на основании каких-либо консервативных генов), имеющих полимеразу DnaE2, и E. coli и посмотреть, входит ли кишечная палочка в группу с синапоморфией в виде наличия DnaE2. Если да, то утрата кишечной палочкой DnaE2 вторична и повышенный GC-состав генома можно объяснить предковым состоянием. Однако это тема для другой работы.
Кодон | АК | Частота, E. coli | Число, E. coli | Частота, L. asiaticus | Число, L. asiaticus | Число GC-нуклеотидов | Δ(E. coli - L. asiaticus), % |
TAA | * | 0,65 | 2678 | 0,51 | 567 | 0 | 0,14 |
TAG | * | 0,07 | 287 | 0,21 | 228 | 1 | -0,14 |
TGA | * | 0,28 | 1178 | 0,28 | 314 | 1 | 0,00 |
GCA | A | 0,21 | 26535 | 0,34 | 6819 | 2 | -0,13 |
GCT | A | 0,16 | 19999 | 0,40 | 8068 | 2 | -0,24 |
GCC | A | 0,27 | 33898 | 0,12 | 2357 | 3 | 0,15 |
GCG | A | 0,36 | 44900 | 0,15 | 2985 | 3 | 0,21 |
TGT | C | 0,44 | 6706 | 0,76 | 3345 | 1 | -0,31 |
TGC | C | 0,56 | 8482 | 0,25 | 1088 | 2 | 0,31 |
GAT | D | 0,63 | 42135 | 0,86 | 14680 | 1 | -0,24 |
GAC | D | 0,37 | 25214 | 0,14 | 2372 | 2 | 0,24 |
GAA | E | 0,69 | 52330 | 0,74 | 13751 | 1 | -0,05 |
GAG | E | 0,31 | 23456 | 0,26 | 4744 | 2 | 0,05 |
TTT | F | 0,57 | 29304 | 0,79 | 11454 | 0 | -0,22 |
TTC | F | 0,43 | 21827 | 0,21 | 3015 | 1 | 0,22 |
GGA | G | 0,11 | 10216 | 0,41 | 7990 | 2 | -0,30 |
GGT | G | 0,34 | 32655 | 0,32 | 6375 | 2 | 0,01 |
GGC | G | 0,41 | 39366 | 0,11 | 2149 | 3 | 0,30 |
GGG | G | 0,15 | 14464 | 0,16 | 3186 | 3 | -0,01 |
CAT | H | 0,57 | 16937 | 0,79 | 5920 | 1 | -0,22 |
CAC | H | 0,43 | 12814 | 0,21 | 1565 | 2 | 0,22 |
ATA | I | 0,07 | 5345 | 0,30 | 8514 | 0 | -0,23 |
ATT | I | 0,51 | 40171 | 0,51 | 14513 | 0 | -0,01 |
ATC | I | 0,42 | 33331 | 0,18 | 5201 | 1 | 0,24 |
AAA | K | 0,77 | 44236 | 0,73 | 14901 | 0 | 0,04 |
AAG | K | 0,23 | 13384 | 0,27 | 5626 | 1 | -0,04 |
TTA | L | 0,13 | 18085 | 0,32 | 9646 | 0 | -0,19 |
CTA | L | 0,04 | 5072 | 0,10 | 2972 | 1 | -0,06 |
CTT | L | 0,10 | 14403 | 0,23 | 7162 | 1 | -0,13 |
TTG | L | 0,13 | 17992 | 0,21 | 6419 | 1 | -0,08 |
CTC | L | 0,11 | 14702 | 0,09 | 2609 | 2 | 0,02 |
CTG | L | 0,50 | 70390 | 0,06 | 1758 | 2 | 0,44 |
ATG | M | 1,00 | 36700 | 1,00 | 8403 | 1 | 0,00 |
AAT | N | 0,45 | 22756 | 0,80 | 11723 | 0 | -0,35 |
AAC | N | 0,55 | 28319 | 0,20 | 2953 | 1 | 0,35 |
CCA | P | 0,19 | 11058 | 0,29 | 3457 | 2 | -0,10 |
CCT | P | 0,16 | 9128 | 0,49 | 5760 | 2 | -0,33 |
CCC | P | 0,12 | 7138 | 0,12 | 1472 | 3 | 0,00 |
CCG | P | 0,53 | 30969 | 0,10 | 1150 | 3 | 0,43 |
CAA | Q | 0,35 | 20208 | 0,73 | 8288 | 1 | -0,39 |
CAG | Q | 0,65 | 38152 | 0,27 | 3053 | 2 | 0,39 |
AGA | R | 0,03 | 2489 | 0,21 | 3532 | 1 | -0,18 |
AGG | R | 0,02 | 1363 | 0,08 | 1341 | 2 | -0,06 |
CGA | R | 0,06 | 4523 | 0,14 | 2375 | 2 | -0,08 |
CGT | R | 0,38 | 27843 | 0,36 | 6052 | 2 | 0,02 |
CGC | R | 0,40 | 29301 | 0,14 | 2342 | 3 | 0,26 |
CGG | R | 0,10 | 6983 | 0,07 | 1096 | 3 | 0,03 |
AGT | S | 0,15 | 11322 | 0,16 | 4045 | 1 | -0,01 |
TCA | S | 0,12 | 9154 | 0,17 | 4472 | 1 | -0,05 |
TCT | S | 0,15 | 10986 | 0,41 | 10564 | 1 | -0,26 |
AGC | S | 0,28 | 21131 | 0,07 | 1809 | 2 | 0,21 |
TCC | S | 0,15 | 11321 | 0,10 | 2580 | 2 | 0,05 |
TCG | S | 0,16 | 11747 | 0,09 | 2349 | 2 | 0,06 |
ACA | T | 0,13 | 8975 | 0,35 | 5218 | 1 | -0,22 |
ACT | T | 0,16 | 11577 | 0,34 | 5064 | 1 | -0,18 |
ACC | T | 0,44 | 30972 | 0,15 | 2159 | 2 | 0,29 |
ACG | T | 0,27 | 18970 | 0,16 | 2414 | 2 | 0,11 |
GTA | V | 0,15 | 14325 | 0,27 | 5487 | 1 | -0,11 |
GTT | V | 0,26 | 24031 | 0,43 | 8799 | 1 | -0,17 |
GTC | V | 0,22 | 20227 | 0,14 | 2822 | 2 | 0,08 |
GTG | V | 0,37 | 34796 | 0,17 | 3474 | 2 | 0,20 |
TGG | W | 1,00 | 20060 | 1,00 | 3201 | 2 | 0,00 |
TAT | Y | 0,57 | 21055 | 0,81 | 7824 | 0 | -0,24 |
TAC | Y | 0,43 | 16079 | 0,19 | 1881 | 1 | 0,24 |
Возвращаясь к разнице в аминокислотах и обращая внимание на всё вышесказанное, можно сказать, что разница в аминокислотном составе протеомов может быть обусловлена различной предрасположенностью бактерий к GC-составу их генома. В результате этого у E. coli есть дополительный эволюционный вектор в сторону аминокислот, которые кодируются кодонами с повышенным содержанием GC: так, у E. Coli содержится больше остатков аланина, чем у L. asiaticus (аланин кодируют кодоны с двумя\тремя GC-нуклеотидами), у L. asiaticus же — остатков изолейцина (ноль\один GC-нуклеотид в кодоне), серина (один\два GC-нуклеотида в кодоне) и лизина (ноль\один GC-нуклеотид).