EMBOSS и протеомы

Из базы данных UniProt Proteomes были скачены протеомы E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571, имеющие идентификаторы UP000000625 и UP000001626 соответственно.

Подсчет последовательностей и аминокислот

С помщью команды grep было найдено число последовательностей для E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571, которые сставляют 4391 и 2583 соответственно.Синтаксис команды:

grep -c '>' ecoli.fasta

Для подсчёта количеств каждого из аминокислотных остатков в протеомах бактерий была применена команда wordcount. Синтаксис команды:

wordcount -sequence ecoli.fasta -outfile ecoli.txt -wordsize 1

Данные об абсольтном составе протеомов E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571., полученные командой, приведены в Таблице 1. С помощью Exel было вычислено общее количество аминокислотных остатков и процентное содержание каждого аминокислотного остатка в обоих протеомах, а также разность процентного содержания для каждого остатка между двумя протеомами. Все эти данные также приведены в Таблице 1. Таблица Exel преобразована в таблицу html при помощи сайта. Данную таблицу Exel можно скачать.

Таблица 1. Содержание аминокислотных остатков протеомах E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571.
Аминокислотный остаток Thermoanaerobacterium thermosaccharolyticum DSM 571 E. coli Thermoanaerobacterium thermosaccharolyticum DSM 571, % E. coli, % Разность, %
I 78210 81430 9,97 6,01 3,96
L 70910 144596 9,04 10,68 -1,64
K 67779 59699 8,64 4,41 4,23
V 53528 95744 6,82 7,07 -0,25
E 52240 78008 6,66 5,76 0,90
G 52033 99732 6,63 7,36 -0,73
D 48740 69691 6,21 5,15 1,07
S 47814 78567 6,09 5,80 0,29
A 47055 128736 6,00 9,51 -3,51
N 45637 53363 5,82 3,94 1,88
T 37279 73056 4,75 5,39 -0,64
Y 33456 38538 4,26 2,85 1,42
F 32834 52740 4,18 3,89 0,29
R 28931 74798 3,69 5,52 -1,84
P 25156 59981 3,21 4,43 -1,22
M 21180 38288 2,70 2,83 -0,13
Q 17907 60148 2,28 4,44 -2,16
H 10872 30739 1,39 2,27 -0,88
C 7329 15752 0,93 1,16 -0,23
W 5758 20745 0,73 1,53 -0,80
U 0 3 0,00 0,00 0,00
Сумма 784648 1354354 100 100 0

Три самых частых аминокислотных остатка в протеоме Thermoanaerobacterium thermosaccharolyticum DSM 571 - это изолейцин, лейцин и лизин, что совпадает в случае E. coli только в лейцине, для которого самыми часто встречающимися являются гидрофобные аминокислотные остатки: лейцин, аланин и валин. Что касается трёх самых редких - в протеомах данных организмов они совпадают. К ним относятся (без учёта селеноцистеина U) триптофан, цистеин и гистидин. Самая большая разница в пользу Thermoanaerobacterium thermosaccharolyticum DSM 571 у лизина, что может быть причиной увеличения числа солевых мостиков, а также более слабого гидрофобного взаимодействия в белках Thermoanaerobacterium thermosaccharolyticum DSM 571 по сравнению с E. coli. Самая большая разница в пользу E. coli наблюдается у аланина, что опять же говорит о превосходстве в его белках гидрофобных взаимодействий.