Из базы данных UniProt Proteomes были скачены протеомы E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571, имеющие идентификаторы UP000000625 и UP000001626 соответственно.
Подсчет последовательностей и аминокислот
С помщью команды grep было найдено число последовательностей для E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571, которые сставляют 4391 и 2583 соответственно.Синтаксис команды:
grep -c '>' ecoli.fasta
Для подсчёта количеств каждого из аминокислотных остатков в протеомах бактерий была применена команда wordcount. Синтаксис команды:
wordcount -sequence ecoli.fasta -outfile ecoli.txt -wordsize 1
Данные об абсольтном составе протеомов E. coli str. K12 и Thermoanaerobacterium thermosaccharolyticum DSM 571., полученные командой, приведены в Таблице 1. С помощью Exel было вычислено общее количество аминокислотных остатков и процентное содержание каждого аминокислотного остатка в обоих протеомах, а также разность процентного содержания для каждого остатка между двумя протеомами. Все эти данные также приведены в Таблице 1. Таблица Exel преобразована в таблицу html при помощи сайта. Данную таблицу Exel можно скачать.
Аминокислотный остаток | Thermoanaerobacterium thermosaccharolyticum DSM 571 | E. coli | Thermoanaerobacterium thermosaccharolyticum DSM 571, % | E. coli, % | Разность, % |
I | 78210 | 81430 | 9,97 | 6,01 | 3,96 |
L | 70910 | 144596 | 9,04 | 10,68 | -1,64 |
K | 67779 | 59699 | 8,64 | 4,41 | 4,23 |
V | 53528 | 95744 | 6,82 | 7,07 | -0,25 |
E | 52240 | 78008 | 6,66 | 5,76 | 0,90 |
G | 52033 | 99732 | 6,63 | 7,36 | -0,73 |
D | 48740 | 69691 | 6,21 | 5,15 | 1,07 |
S | 47814 | 78567 | 6,09 | 5,80 | 0,29 |
A | 47055 | 128736 | 6,00 | 9,51 | -3,51 |
N | 45637 | 53363 | 5,82 | 3,94 | 1,88 |
T | 37279 | 73056 | 4,75 | 5,39 | -0,64 |
Y | 33456 | 38538 | 4,26 | 2,85 | 1,42 |
F | 32834 | 52740 | 4,18 | 3,89 | 0,29 |
R | 28931 | 74798 | 3,69 | 5,52 | -1,84 |
P | 25156 | 59981 | 3,21 | 4,43 | -1,22 |
M | 21180 | 38288 | 2,70 | 2,83 | -0,13 |
Q | 17907 | 60148 | 2,28 | 4,44 | -2,16 |
H | 10872 | 30739 | 1,39 | 2,27 | -0,88 |
C | 7329 | 15752 | 0,93 | 1,16 | -0,23 |
W | 5758 | 20745 | 0,73 | 1,53 | -0,80 |
U | 0 | 3 | 0,00 | 0,00 | 0,00 |
Сумма | 784648 | 1354354 | 100 | 100 | 0 |
Три самых частых аминокислотных остатка в протеоме Thermoanaerobacterium thermosaccharolyticum DSM 571 - это изолейцин, лейцин и лизин, что совпадает в случае E. coli только в лейцине, для которого самыми часто встречающимися являются гидрофобные аминокислотные остатки: лейцин, аланин и валин. Что касается трёх самых редких - в протеомах данных организмов они совпадают. К ним относятся (без учёта селеноцистеина U) триптофан, цистеин и гистидин. Самая большая разница в пользу Thermoanaerobacterium thermosaccharolyticum DSM 571 у лизина, что может быть причиной увеличения числа солевых мостиков, а также более слабого гидрофобного взаимодействия в белках Thermoanaerobacterium thermosaccharolyticum DSM 571 по сравнению с E. coli. Самая большая разница в пользу E. coli наблюдается у аланина, что опять же говорит о превосходстве в его белках гидрофобных взаимодействий.