Протеомы бактерий Uniprot
Введение
В данной работе проводился анализ протеомов бактерий Escherichia coli (штамм k12) и Enterococcus hirae (штамм ATCC 9790). Для этого протеомы были скачены с сайта Uniprot в формате fasta. С помощью grep -c ">" был выполнен подсчёт количества последовательностей. Файлы с подсчётами аминокислотных остатков каждой бактерии были созданы командой wordcount из пакета EMBOSS (см. Сопроводительные материалы) Для того, чтобы сделать таблицу с подсчётами количества аминокислотных остатков и их встречаемости в протеоме бактерий, был написан код на python, использовалась (предварительно скачанная) библиотека jinja2. С помощью того же скрипта было подсчитано общее количество аминокислот. Команда запуска: python3 template.py.
Результаты работы представлены в Таблицах 1 и 2.
Организм | ID протеома | Количество последовательностей | Количество аминокислотных остатков |
E.coli str k12 | UP000000625 | 4352 | 1353357 |
Enterococcus hirae str ATCC 9790 | UP000002895 | 2743 | 755523 |
Буква | Количество у E.coli | Количество у Enterococcus hirae | Встречаемость у E.coli, % | Встречаемость у Enterococcus hirae, % | Разница |
L | 144488 | 75257 | 10.6763 | 9.9609 | 0.7154 |
I | 81357 | 58267 | 6.0115 | 7.7121 | -1.7006 |
E | 77984 | 56168 | 5.7623 | 7.4343 | -1.672 |
K | 59642 | 54329 | 4.407 | 7.1909 | -2.7839 |
A | 128666 | 51408 | 9.5072 | 6.8043 | 2.7029 |
V | 95687 | 50044 | 7.0703 | 6.6238 | 0.4465 |
G | 99690 | 48032 | 7.3661 | 6.3575 | 1.0086 |
T | 73007 | 45379 | 5.3945 | 6.0063 | -0.6118 |
S | 78483 | 44763 | 5.7991 | 5.9248 | -0.1257 |
D | 69656 | 38167 | 5.1469 | 5.0517 | 0.0952 |
N | 53299 | 35536 | 3.9383 | 4.7035 | -0.7652 |
F | 52705 | 34958 | 3.8944 | 4.627 | -0.7326 |
Q | 60126 | 33917 | 4.4427 | 4.4892 | -0.0465 |
R | 74712 | 28805 | 5.5205 | 3.8126 | 1.7079 |
Y | 38502 | 28402 | 2.8449 | 3.7593 | -0.9144 |
P | 59938 | 25975 | 4.4288 | 3.438 | 0.9908 |
M | 38236 | 20090 | 2.8253 | 2.6591 | 0.1662 |
H | 30714 | 14027 | 2.2695 | 1.8566 | 0.4129 |
W | 20735 | 7258 | 1.5321 | 0.9607 | 0.5714 |
C | 15727 | 4741 | 1.1621 | 0.6275 | 0.5346 |
U | 3 | 0 | 0.0002 | 0.0 | 0.0002 |
Обсуждение результатов
Наиболее часто встречающаяся аминокислота в обоих протеомах - это лейцин. Самая большая разница по встречаемости наблюдается для лизина и аланина, 4.4% и 9.5% (второе место по встречаемости) - у E.coli и 7.2% и 6.8% у Enterococcus hirae соответственно. Гистидин, триптофан и цистеин - самые редкие аминокислоты в обоих протеомах, но у E.coli они встречаются чаще.
Сравнение команд wordcount и compseq
В отличие от wordcount compseq выдаёт не только информацию о количестве аминокислотных остатков в последовательности, но и встречаемость и общее количество, а также отношение наблюдаемой встречаемости и ожидаемой встречаемости (при равномерном распределении аминокислот). Во время подсчёта compseq отмечает не только аминокилоты, но и, видимо, попавшиеся необычные символы, их количество он записывает в графу "Other". Проблема заключается в том, что он суммирует их с общим количеством аминокислот, из-за чего проценты встречаемости слегка расходятся с теми, которые были получены в результате работы python. Кроме того, он перечисляет первые десять последовательностей, что может быть удобно, но не для чтения файла при работе в python. Поэтому в своей работе я предпочла пользоваться wordcount.
Сопроводительные материалы
1. Python script2. Шаблон, использованный для создания таблицы в python
3. Результат работы команды wordcount для протеома E. coli
4. Результат работы команды wordcount для протеома Enterococcus hirae
5. Результат работы python