EMBOSS и протеомы
C помощью пакета EMBOSS и команд Bash были собраны некоторые данные по протеомам бактерий Escherichia coli K-12 и Pasteurella multocida Pm70. Для этого использовались скачанные в fasta-формате протеомы из базы данных Uniprot. Подсчет числа последовательностей производился командой grep '>' name.fasta | wc -l , число аминокислот находилось в скрипте на Python (ссылка внизу страницы).
- Escherichia coli K-12
- Идентификатор протеома: UP000000625
- Количество последовательностей: 4352
- Количество аминокислот: 1353357
- Pasteurella multocida Pm70
- Идентификатор протеома: UP000000809
- Количество последовательностей: 2015
- Количество аминокислот: 667631
Для бактерий были посчитаны частоты встречаеости аминокислот в протеомах, результаты приведены в таблице 1. В обоих случаях самыми частыми оказались гиброфобные аминокислоты - лейцин, аланин, изолейцин, глицин, валин. Самая редкая аминокислота, не считая селеноцистеина - цистеин, вторая по редкости - триптофан. Причем, в сравнении с данными по частотам аминокислот, представленным в английской Википедии и основанным на статье, где рассмотрена выборка из более 5000 протеомов, заметно снижена частота серина для обеих бактерий, а частота изолейцна повышена. Между рассматриваемыми бактериями наибольшая разница достигается по лизину и аргинину.
Аминокислота | Процент у E. coli | Процент у P.multocida | Pазность |
A | 9.5072 | 8.5766 | 0.93 |
C | 1.1621 | 1.0892 | 0.07 |
D | 5.1469 | 4.9053 | 0.24 |
E | 5.7623 | 6.0995 | 0.34 |
F | 3.8944 | 4.4274 | 0.53 |
G | 7.3661 | 6.5493 | 0.82 |
H | 2.2695 | 2.3729 | 0.1 |
I | 6.0115 | 6.856 | 0.84 |
K | 4.407 | 5.9205 | 1.51 |
L | 10.6763 | 10.9229 | 0.25 |
M | 2.8253 | 2.4224 | 0.4 |
N | 3.9383 | 4.3232 | 0.38 |
P | 4.4288 | 3.8595 | 0.57 |
Q | 4.4427 | 5.0976 | 0.65 |
R | 5.5205 | 4.4475 | 1.07 |
S | 5.7991 | 5.6663 | 0.13 |
T | 5.3945 | 5.2966 | 0.1 |
U | 0.0002 | 0.0 | 0.0 |
V | 7.0703 | 6.7684 | 0.3 |
W | 1.5321 | 1.1713 | 0.36 |
Y | 2.8449 | 3.2275 | 0.38 |
Для создания таблицы была использована информация, полоученная с помощью команды wordcount по каждой из бактерий, поиск проводился по словам из одного символа. Дальше поток перенаправлялся в два файла, из которых с помощью скрипта на Python, ссылка накоторый приведена ниже, и была составлена данная таблица.