Практикум 7

В этом практикуме изучаются возможности работы с биологическими последовательностями в bash (команда grep и пакет EMBOSS).

Частоты остатков в протеомах

При выполнении первого задания из UniProt были скачаны протеомы Escherichia coli (strain K12)(идентификатор протеома - UP000000625) и Desulfovibrio alaskensis (strain G20)(идентификатор протеома - UP000002710) в формате fasta.

Сначала узнали число последовательностей, записанное в каждом файле - 4391 у Escherichia coli и 3220 у Desulfovibrio alaskensis.

Далее при помощи программы wordcount посчитали число аминокислотных остатков в протеоме и привели результаты в таблице 1 (Escherichia coli (strain K12)) и таблице 2 (Desulfovibrio alaskensis (strain G20)).

Данные из текстовых файлов были переведены в вид html-таблиц при помощи сайта Text to HTML Table Converter.

Таблица 1 (Escherichia coli (strain K12))

АминокислотаКоличество аминокислот
L 144596
A 128736
G 99732
V 95744
I 81430
S 78567
E 78008
R 74798
T 73056
D 69691
Q 60148
P 59981
K 59699
N 53363
F 52740
Y 38538
M 38288
H 30739
W 20745
C 15752
U 3
Общее число аминокислот1354354

Таблица 2 (Desulfovibrio alaskensis (strain G20))

АминокислотаКоличество аминокислот
A116599
L110669
G85907
V80087
R74070
E65578
S58710
D57509
T56765
I51463
P51450
F40383
K39712
Q38697
M30934
N30000
Y27675
H25076
C15520
W12611
U3
Общее число аминокислот1069418

Таблица 3. Аминокислотный состав протеомов

ОстатокПроцент у E. coliПроцент у D. alaskensisРазность процентов
L10,68%10,35%0,33%
A9,51%10,90%-1,40%
G7,36%8,03%-0,67%
V7,07%7,49%-0,42%
I6,01%4,81%1,20%
S5,80%5,49%0,31%
E5,76%6,13%-0,37%
R5,52%6,93%-1,40%
T5,39%5,31%0,09%
D5,15%5,38%-0,23%
Q4,44%3,62%0,82%
P4,43%4,81%-0,38%
K4,41%3,71%0,69%
N3,94%2,81%1,13%
F3,89%3,78%0,12%
Y2,85%2,59%0,26%
M2,83%2,89%-0,07%
H2,27%2,34%-0,08%
W1,53%1,18%0,35%
C1,16%1,45%-0,29%
U0,00%0,00%0,00%

Наиболее часто встречающимися остатками у бактерий стали А (alanine) и L (leucine). Реже всего встречаются W (триптофан), Н (гистидин) и С (цистеин). Если посмотреть разницу процентов, то можно увидеть, что у D. alaskensis аланин и аргинин встречаются намного чаще, чем у E. coli (на 1,40%).
У E. coli I (изолейцин) встречается намного чаще, чем у D. alaskensis(на 1,20%).

Количество остатков у E. coli оказалось больше, чем у D. alaskensis, однако их сравнение все-таки оказалось возможным.