Учебный сайт Якушева Александра


Практикум 7. EMBOSS

В рамках этого практикума рассматривались протеомы бактерий Chromobacterium violaceum (штамм ATCC 12472) и Escherichia coli (штамм K12). Нас интересовало количество последовательностей и содержание различных аминокислотных остатков в них.
В ходе работы были использованы элементы языка bash, программа grep, функции из пакета EMBOSS (wordcount), язык Python.

Из базы Uniprot Proteoms были скачаны протеомы двух бактерий, оба референсные. С помощью команды
grep -c \> %PROTEOME%.fasta
были посчитаны количества последовательностей. С помощью команды
wordcount %PROTEOME%.fasta %OUT%.wordcount -wordsize 1
были получены файлы с перечисленными аминокислотами. Информация о протеомах приведена в Таблице 1.

Таблица 1. Описание протеомов C. violaceum и E. coli.
Название организма Идентификатор протеома Количество последовательностей Количество аминокислот
Chromobacterium violaceum ATCC 12472 UP000001424 4397 1395434
Escherichia coli (strain K12) UP000000625 4391 1354354

В питоне была написана программа, печатающая тело html таблицы в текстовый файл. Запуск осуществляется через командную строку в формате:
python3 tablecr.py vioa_chrvo.wordcount syp_ecoli.wordcount out.txt
Считывание имен файлов из командной строки при помощи модуля sys. Вторым файлом должен идти файл с наибольшим числом разных аминокислот(например, селеноцистеин, который есть не у всех).

Таблица 2. Частоты встречаемости аминокислот в протеомах E. coli и C. violaceum.
Аминокислота E. coli C. viol Разница
A 9.23 12.87 3.64
C 1.13 1.06 0.07
D 4.99 5.61 0.62
E 5.59 5.54 0.05
F 3.78 3.55 0.23
G 7.15 8.66 1.51
H 2.2 2.25 0.05
I 5.84 4.55 1.29
K 4.28 3.7 0.58
L 10.36 11.84 1.48
M 2.74 2.53 0.21
N 3.82 2.95 0.87
P 4.3 5.11 0.81
Q 4.31 4.52 0.21
R 5.36 7.08 1.72
S 5.63 5.82 0.19
T 5.24 4.38 0.86
U 0.0 0.0 0.0
V 6.86 6.95 0.09
W 1.49 1.51 0.02
Y 2.76 2.56 0.2

Три самых частых аминокислоты у C. violaceum - аланин, лейцин, глицин, a у E.coli - лейцин, аланин, глицин (в порядке убывания). Эти же аминокислоты входят в топ5 по разнице в частотах встречаемости.
У E. coli в протеоме встречается селеноцистеин(однобуквенный код U), а у C. violaceum его нет. С чем это может быть связанно трудно сказать.
Три самых редких аминокислоты у C. violaceum и E. coli совпадают - цистеин, триптофан, гистидин (в порядке возрастания).

Ссылка на скрипт

Вместо вывода

— В праке твоя сила и мудрость.
— Вы любите праки?
— Да.
— А какие сорта предпочитаете?
— Да обычные. Вот, пожалуйста, EMBOSS. Нормальны прак. Пацанский, чего уж там. Делать можно.
— Похвалите ещё прак.
— Ну, как его похвалить-то, ну, зашибись прак. Добротный прак. Как его ещё похвалить, черт? Хе-хе.
— А ещё пара красивых слов?
— Невообразимый прак.
— Спасибо.
— Да на здоровье. Вот оно, жидкое золото!