EMBOSS и протеомы

C помощью пакета EMBOSS и команд Bash были собраны некоторые данные по протеомам бактерий Escherichia coli K-12 и Pasteurella multocida Pm70. Для этого использовались скачанные в fasta-формате протеомы из базы данных Uniprot. Подсчет числа последовательностей производился командой grep '>' name.fasta | wc -l , число аминокислот находилось в скрипте на Python (ссылка внизу страницы).

  1. Escherichia coli K-12
    • Идентификатор протеома: UP000000625
    • Количество последовательностей: 4352
    • Количество аминокислот: 1353357
  2. Pasteurella multocida Pm70
    • Идентификатор протеома: UP000000809
    • Количество последовательностей: 2015
    • Количество аминокислот: 667631

Для бактерий были посчитаны частоты встречаеости аминокислот в протеомах, результаты приведены в таблице 1. В обоих случаях самыми частыми оказались гиброфобные аминокислоты - лейцин, аланин, изолейцин, глицин, валин. Самая редкая аминокислота, не считая селеноцистеина - цистеин, вторая по редкости - триптофан. Причем, в сравнении с данными по частотам аминокислот, представленным в английской Википедии и основанным на статье, где рассмотрена выборка из более 5000 протеомов, заметно снижена частота серина для обеих бактерий, а частота изолейцна повышена. Между рассматриваемыми бактериями наибольшая разница достигается по лизину и аргинину.

Таблииа 1. Частоты встречаемости аминокислот в протеомах E. coli и P. multocida
Аминокислота Процент у E. coli Процент у P.multocida Pазность
A9.50728.57660.93
C1.16211.08920.07
D5.14694.90530.24
E5.76236.09950.34
F3.89444.42740.53
G7.36616.54930.82
H2.26952.37290.1
I6.01156.8560.84
K4.4075.92051.51
L10.676310.92290.25
M2.82532.42240.4
N3.93834.32320.38
P4.42883.85950.57
Q4.44275.09760.65
R5.52054.44751.07
S5.79915.66630.13
T5.39455.29660.1
U0.00020.00.0
V7.07036.76840.3
W1.53211.17130.36
Y2.84493.22750.38

Для создания таблицы была использована информация, полоученная с помощью команды wordcount по каждой из бактерий, поиск проводился по словам из одного символа. Дальше поток перенаправлялся в два файла, из которых с помощью скрипта на Python, ссылка накоторый приведена ниже, и была составлена данная таблица.

Ссылка на скрипт