EMBOSS и протеомы

Описание работы:

1.Скачивание протеомов:

С заглавной страницы UniProt, перейдя по гиперссылке Proteomes и используя расширенный поиск, я нашла протеомы Escherichia coli (strain K12) и своей бактерии Thermobifida fusca (strain YX). Далее я щёлкнула по числу белков и загрузила файл с протеомом в формате fasta. Файл был запакован, поэтому я распаковала его командой gunzip.

2.Для подсчета количества последовательностей в fasta файле в командную строку было вбито следующее:

grep -cE '>' Ecoli.fasta

grep -cE '>' Thefy.fasta

3.Количество аминокислот в fasta файле было получено с помощью команды:

wordcount -wordsize 1 Ecoli.fasta (выводит файл, в котором подсчитано количество каждого а.о.)

wordcount -wordsize 1 Thefy.fasta

И последуюшего использования скрипта , написанного на python для получения суммы по всем а.к.

Результаты работы:

Идентификатор протеома: UP000000625
Число последовательностей: 4,352
Число аминокислот: 1.353,357
Идентификатор протеома: UP000000434
Число последовательностей: 3,085
Число аминокислот: 1,025,469

Таблица:

Сравнение протеомов Escherichia coli (strain K12) и Thermobifida fusca (strain YX)
Аминокислотный остаток Встречаемость в протеоме Escherichia coli(%) Встречаемость в протеоме Thermobifida fusca(%) Разность(%)
A 9.51 12.6 -3
L 10.68 10.41 0
V 7.07 8.69 -1
G 7.37 8.38 -1
R 5.52 8.2 -2
E 5.76 6.35 0
P 4.43 6.12 -1
T 5.39 6.0 0
D 5.15 5.82 0
S 5.8 5.22 0
I 6.01 3.88 2
Q 4.44 3.0 1
F 3.89 2.83 1
H 2.27 2.32 0
Y 2.84 2.19 0
K 4.41 2.0 2
N 3.94 1.95 1
M 2.83 1.75 1
W 1.53 1.5 0
C 1.16 0.8 0

Комментарии к таблице:

Из таблицы видно, что лейцин является наиболее часто встречаемым аминокислотным остатком для протеомов обеих бактерий. Самые редкие а.о. - цистеин и триптофан. Важно отметить, что разность между процентным содержанием аланина, аргинина, изолейцина и лизина приблизительно составляет 2%. Такой отрыв является довольно существенным т.к. в целом соответствующие а.о. встречаются в протеомах в одинаковых количествах.