Протеомы Uniprot

На данной странице представлен краткий анализ протеомов двух бактерий: Nitrosomonas europaea и Escherichia coli. В таблице 1 рассмотрены осоновные характеристики протеомов.

Таблица 1

Бактерия	Идентификатор протеома	Число последовательностей	Общее число аминокислот
Nitrosomonas europaea	UP000001416	2375	777646
Escherichia coli	UP000000625	4313	1351619

В таблице 2 представлено процентное распеределение 20 основных аминокислот в протеомах двух бактерий, а также разница между процентым содержанием каждой аминокислоты в двух протеомах. Таблица Excel

Таблица 2

Аминокислота	N.europaea, %	E.coli, %	Δ
L	10.71	10.68	0.03%
A	9.28	9.51	-0.23%
G	7.21	7.37	-0.17%
V	6.71	7.07	-0.36%
I	6.42	6.01	0.41%
R	6.36	5.52	0.85%
S	6.01	5.80	0.22%
E	6.00	5.77	0.24%
T	5.46	5.39	0.07%
D	5.35	5.15	0.21%
P	4.59	4.43	0.17%
Q	4.31	4.44	-0.14%
K	4.06	4.41	-0.35%
F	3.93	3.89	0.04%
N	3.56	3.94	-0.38%
Y	2.81	2.84	-0.03%
H	2.49	2.27	0.23%
M	2.44	2.82	-0.38%
W	1.32	1.53	-0.21
C	0.96	1.16	-0.20

Основные различия протеомов:

а) Наиболее часто встречающиеся аминокислоты:

►N.europaea

Лейцин (10.71%)

Аланин (9.28%)

Глицин (7.21%)

►E.coli

Лейцин (10.68%)

Аланин (9.51%)

Глицин (7.37%)

б) Наиболее редко встречающиеся аминокислоты:

►N.europaea

Цистеин (0.96%)

Триптофан (1.32%)

Метионин (2.44%)

►E.coli

Цистеин (1.16%)

Триптофан (1.53%)

Гистидин (2.27%)

Очевидно, что наиболее часто встречающиеся аминокислоты совпадают в двух протеомах, в то время как наиболее редкие остатки различаются. Если говорить о процентом различии во встречаемости остатков, то наибольший перевес в сторону бактерии N.europaea провляется в количестве аминокислоты Аргинина (больше на 0.85%). В протеоме бактерии E.coli, в свою очередь, на 0.38% больше аминокислот Тирозина и Метионина.

Команда Compseq

Команды wordcount и compseq Emboss предназначены для поиска слов различной длины в указанном файле. При этом:

► Команда wordcount подсчитывает число всех возможных слов заданной длины и записывает полученные данные в две колонки текстового файла по убыванию числа встречаемости. В командной строке может быть указана длина искомых слов и имя файла, в который будет записан результат. Пример:

% wordcount file1 -wordsize=1 file2

данная команда посчитает количесво всех слов длины 1 из файла file1 и запишет результат в file2

► Команда compseq подсчитывет число всех возможных слов заданной длины и записывает результат в указанный файл, раcполагая слова в алфавитном порядке. Кроме того, подсчитывается доля встречаемости каждого слова в файле, ожидаемая доля, отношение этих значений. Команда имеет большее количество аргументов, чем wordcount. Например, аргумент -frame позволяет регулировать рамку считывания. Аргумент -nozero убирает из списка слова, не встречающиеся в файле (если проводить подсчет слов длины 1 (аминокислот), то иногда в резульате отображается строка с количеством селеноцистеина, даже если этой аминокислоты нет в последовательности. -nozero убирает эту строку).

Uniprot; Proteomes