Протеомы бактерий Uniprot

Введение

В данной работе проводился анализ протеомов бактерий Escherichia coli (штамм k12) и Enterococcus hirae (штамм ATCC 9790). Для этого протеомы были скачены с сайта Uniprot в формате fasta. С помощью grep -c ">" был выполнен подсчёт количества последовательностей. Файлы с подсчётами аминокислотных остатков каждой бактерии были созданы командой wordcount из пакета EMBOSS (см. Сопроводительные материалы) Для того, чтобы сделать таблицу с подсчётами количества аминокислотных остатков и их встречаемости в протеоме бактерий, был написан код на python, использовалась (предварительно скачанная) библиотека jinja2. С помощью того же скрипта было подсчитано общее количество аминокислот. Команда запуска: python3 template.py.

Результаты работы представлены в Таблицах 1 и 2.

Таблица 1. Общая информация о протеомах
Организм	ID протеома	Количество последовательностей	Количество аминокислотных остатков
E.coli str k12	UP000000625	4352	1353357
Enterococcus hirae str ATCC 9790	UP000002895	2743	755523

Таблица 2. Аминокислотный состав протеомов
Буква	Количество у E.coli	Количество у Enterococcus hirae	Встречаемость у E.coli, %	Встречаемость у Enterococcus hirae, %	Разница
L	144488	75257	10.6763	9.9609	0.7154
I	81357	58267	6.0115	7.7121	-1.7006
E	77984	56168	5.7623	7.4343	-1.672
K	59642	54329	4.407	7.1909	-2.7839
A	128666	51408	9.5072	6.8043	2.7029
V	95687	50044	7.0703	6.6238	0.4465
G	99690	48032	7.3661	6.3575	1.0086
T	73007	45379	5.3945	6.0063	-0.6118
S	78483	44763	5.7991	5.9248	-0.1257
D	69656	38167	5.1469	5.0517	0.0952
N	53299	35536	3.9383	4.7035	-0.7652
F	52705	34958	3.8944	4.627	-0.7326
Q	60126	33917	4.4427	4.4892	-0.0465
R	74712	28805	5.5205	3.8126	1.7079
Y	38502	28402	2.8449	3.7593	-0.9144
P	59938	25975	4.4288	3.438	0.9908
M	38236	20090	2.8253	2.6591	0.1662
H	30714	14027	2.2695	1.8566	0.4129
W	20735	7258	1.5321	0.9607	0.5714
C	15727	4741	1.1621	0.6275	0.5346
U	3	0	0.0002	0.0	0.0002

Обсуждение результатов

Наиболее часто встречающаяся аминокислота в обоих протеомах - это лейцин. Самая большая разница по встречаемости наблюдается для лизина и аланина, 4.4% и 9.5% (второе место по встречаемости) - у E.coli и 7.2% и 6.8% у Enterococcus hirae соответственно. Гистидин, триптофан и цистеин - самые редкие аминокислоты в обоих протеомах, но у E.coli они встречаются чаще.

Сравнение команд wordcount и compseq

В отличие от wordcount compseq выдаёт не только информацию о количестве аминокислотных остатков в последовательности, но и встречаемость и общее количество, а также отношение наблюдаемой встречаемости и ожидаемой встречаемости (при равномерном распределении аминокислот). Во время подсчёта compseq отмечает не только аминокилоты, но и, видимо, попавшиеся необычные символы, их количество он записывает в графу "Other". Проблема заключается в том, что он суммирует их с общим количеством аминокислот, из-за чего проценты встречаемости слегка расходятся с теми, которые были получены в результате работы python. Кроме того, он перечисляет первые десять последовательностей, что может быть удобно, но не для чтения файла при работе в python. Поэтому в своей работе я предпочла пользоваться wordcount.

Сопроводительные материалы

1. Python script
2. Шаблон, использованный для создания таблицы в python
3. Результат работы команды wordcount для протеома E. coli
4. Результат работы команды wordcount для протеома Enterococcus hirae
5. Результат работы python