Протеомы бактерий Uniprot

Введение

В данной работе проводился анализ протеомов бактерий Escherichia coli (штамм k12) и Enterococcus hirae (штамм ATCC 9790). Для этого протеомы были скачены с сайта Uniprot в формате fasta. С помощью grep -c ">" был выполнен подсчёт количества последовательностей. Файлы с подсчётами аминокислотных остатков каждой бактерии были созданы командой wordcount из пакета EMBOSS (см. Сопроводительные материалы) Для того, чтобы сделать таблицу с подсчётами количества аминокислотных остатков и их встречаемости в протеоме бактерий, был написан код на python, использовалась (предварительно скачанная) библиотека jinja2. С помощью того же скрипта было подсчитано общее количество аминокислот. Команда запуска: python3 template.py.

Результаты работы представлены в Таблицах 1 и 2.

Таблица 1. Общая информация о протеомах
Организм ID протеома Количество последовательностей Количество аминокислотных остатков
E.coli str k12 UP000000625 4352 1353357
Enterococcus hirae str ATCC 9790 UP000002895 2743 755523
Таблица 2. Аминокислотный состав протеомов
Буква Количество у E.coli Количество у Enterococcus hirae Встречаемость у E.coli, % Встречаемость у Enterococcus hirae, % Разница
L 144488 75257 10.6763 9.9609 0.7154
I 81357 58267 6.0115 7.7121 -1.7006
E 77984 56168 5.7623 7.4343 -1.672
K 59642 54329 4.407 7.1909 -2.7839
A 128666 51408 9.5072 6.8043 2.7029
V 95687 50044 7.0703 6.6238 0.4465
G 99690 48032 7.3661 6.3575 1.0086
T 73007 45379 5.3945 6.0063 -0.6118
S 78483 44763 5.7991 5.9248 -0.1257
D 69656 38167 5.1469 5.0517 0.0952
N 53299 35536 3.9383 4.7035 -0.7652
F 52705 34958 3.8944 4.627 -0.7326
Q 60126 33917 4.4427 4.4892 -0.0465
R 74712 28805 5.5205 3.8126 1.7079
Y 38502 28402 2.8449 3.7593 -0.9144
P 59938 25975 4.4288 3.438 0.9908
M 38236 20090 2.8253 2.6591 0.1662
H 30714 14027 2.2695 1.8566 0.4129
W 20735 7258 1.5321 0.9607 0.5714
C 15727 4741 1.1621 0.6275 0.5346
U 3 0 0.0002 0.0 0.0002

Обсуждение результатов

Наиболее часто встречающаяся аминокислота в обоих протеомах - это лейцин. Самая большая разница по встречаемости наблюдается для лизина и аланина, 4.4% и 9.5% (второе место по встречаемости) - у E.coli и 7.2% и 6.8% у Enterococcus hirae соответственно. Гистидин, триптофан и цистеин - самые редкие аминокислоты в обоих протеомах, но у E.coli они встречаются чаще.

Сравнение команд wordcount и compseq

В отличие от wordcount compseq выдаёт не только информацию о количестве аминокислотных остатков в последовательности, но и встречаемость и общее количество, а также отношение наблюдаемой встречаемости и ожидаемой встречаемости (при равномерном распределении аминокислот). Во время подсчёта compseq отмечает не только аминокилоты, но и, видимо, попавшиеся необычные символы, их количество он записывает в графу "Other". Проблема заключается в том, что он суммирует их с общим количеством аминокислот, из-за чего проценты встречаемости слегка расходятся с теми, которые были получены в результате работы python. Кроме того, он перечисляет первые десять последовательностей, что может быть удобно, но не для чтения файла при работе в python. Поэтому в своей работе я предпочла пользоваться wordcount.

Сопроводительные материалы

1. Python script
2. Шаблон, использованный для создания таблицы в python
3. Результат работы команды wordcount для протеома E. coli
4. Результат работы команды wordcount для протеома Enterococcus hirae
5. Результат работы python