Практикум 7. EMBOSS
В рамках этого практикума рассматривались протеомы бактерий Chromobacterium violaceum (штамм ATCC 12472) и Escherichia coli (штамм K12). Нас интересовало количество последовательностей и содержание различных аминокислотных остатков в них.
В ходе работы были использованы элементы языка bash, программа grep, функции из пакета EMBOSS (wordcount), язык Python.
Из базы Uniprot Proteoms были скачаны протеомы двух бактерий, оба референсные. С помощью команды
grep -c \> %PROTEOME%.fasta
были посчитаны количества последовательностей. С помощью команды
wordcount %PROTEOME%.fasta %OUT%.wordcount -wordsize 1
были получены файлы с перечисленными аминокислотами. Информация о протеомах приведена в Таблице 1.
Название организма | Идентификатор протеома | Количество последовательностей | Количество аминокислот |
Chromobacterium violaceum ATCC 12472 | UP000001424 | 4397 | 1395434 |
Escherichia coli (strain K12) | UP000000625 | 4391 | 1354354 |
В питоне была написана программа, печатающая тело html таблицы в текстовый файл.
Запуск осуществляется через командную строку в формате:
python3 tablecr.py vioa_chrvo.wordcount syp_ecoli.wordcount out.txt
Считывание имен файлов из командной строки при помощи модуля sys. Вторым файлом должен идти файл с наибольшим числом разных аминокислот(например, селеноцистеин, который есть не у всех).
Аминокислота | E. coli | C. viol | Разница |
A | 9.23 | 12.87 | 3.64 |
C | 1.13 | 1.06 | 0.07 |
D | 4.99 | 5.61 | 0.62 |
E | 5.59 | 5.54 | 0.05 |
F | 3.78 | 3.55 | 0.23 |
G | 7.15 | 8.66 | 1.51 |
H | 2.2 | 2.25 | 0.05 |
I | 5.84 | 4.55 | 1.29 |
K | 4.28 | 3.7 | 0.58 |
L | 10.36 | 11.84 | 1.48 |
M | 2.74 | 2.53 | 0.21 |
N | 3.82 | 2.95 | 0.87 |
P | 4.3 | 5.11 | 0.81 |
Q | 4.31 | 4.52 | 0.21 |
R | 5.36 | 7.08 | 1.72 |
S | 5.63 | 5.82 | 0.19 |
T | 5.24 | 4.38 | 0.86 |
U | 0.0 | 0.0 | 0.0 |
V | 6.86 | 6.95 | 0.09 |
W | 1.49 | 1.51 | 0.02 |
Y | 2.76 | 2.56 | 0.2 |
Три самых частых аминокислоты у C. violaceum - аланин, лейцин, глицин, a у E.coli - лейцин, аланин, глицин (в порядке убывания). Эти же аминокислоты входят в топ5 по разнице в частотах встречаемости.
У E. coli в протеоме встречается селеноцистеин(однобуквенный код U), а у C. violaceum его нет. С чем это может быть связанно трудно сказать.
Три самых редких аминокислоты у C. violaceum и E. coli совпадают - цистеин, триптофан, гистидин (в порядке возрастания).
Вместо вывода
— В праке твоя сила и мудрость.
— Вы любите праки?
— Да.
— А какие сорта предпочитаете?
— Да обычные. Вот, пожалуйста, EMBOSS. Нормальны прак. Пацанский, чего уж там. Делать можно.
— Похвалите ещё прак.
— Ну, как его похвалить-то, ну, зашибись прак. Добротный прак. Как его ещё похвалить, черт? Хе-хе.
— А ещё пара красивых слов?
— Невообразимый прак.
— Спасибо.
— Да на здоровье. Вот оно, жидкое золото!