Частоты остатков в протеомах Escherichia coli K12 и Desulfarculus baarsii DSM 2075

Из UniProt были загружены протеомы E. coli str. K12 и Desulfarculus baarsii DSM 2075.
Протеомы в fasta-формате были помещены в мою папку на kodomo, и затем в Putty с помощью команд grep (bash) и wordcount (EMBOSS) были посчитаны сначала число последовательностей, а затем число аминокислот (по каждой аминокислоте) в каждом протеоме.

Escherichia coli str. K12

Proteome ID: UP000000625

Число последовательностей: 4352

Число аминокислот: 1353357


Desulfarculus baarsii DSM 2075

Proteome ID: UP000009047

Число последовательностей: 3268

Число аминокислот: 1096967

Таблица с результатами поиска. В конце страницы - скрипт Python, делающий таблицу из cvs-файла в той же директории (разделитель - ";").

Таблица 1. Частоты остатков в протеомах.
остаток (однобуквенный код) % в протеоме Desulfarculus baarsii DSM 2075 % в протеоме E. coli str. K12 разность процентов [2]-[1]
L 11,2450 10,6763 -0,5687
A 12,6817 9,5072 -3,1745
G 8,8416 7,3661 -1,4754
V 7,2609 7,0703 -0,1906
I 4,4518 6,0115 1,5597
S 4,5884 5,7991 1,2108
E 5,7927 5,7623 -0,0304
R 7,0945 5,5205 -1,5740
T 4,1236 5,3945 1,2709
D 5,5044 5,1469 -0,3575
Q 4,0937 4,4427 0,3491
P 5,1785 4,4288 -0,7496
K 3,6657 4,4070 0,7413
N 2,5377 3,9383 1,4006
F 3,4021 3,8944 0,4923
Y 2,2811 2,8449 0,5638
M 2,6674 2,8253 0,1579
H 2,0012 2,2695 0,2682
W 1,3180 1,5321 0,2141
C 1,2699 1,1621 -0,1078
U 0,0003 0,0002 -0,0001

Скачать таблицу в формате Excel или csv.

Скачать код таблицы в Python (этот код возьмет файл pr7_1.csv и создаст таблицу table_pr7.html в той же директории).
Важно: работает, если установлена библиотека prettytable. Если ее нет, нужно установить библиотеку с помощью ввода в командную строку следующей команды: "pip install PrettyTable".


В обоих рассмотренных выше протеомах чаще всего встречаются лейцин (L), аланин (А) и глицин (G). Мы не рассматриваем селеноцистеин (U), а, значит, можно сказать, что самые редкие остатки в протеомах - гистидин (H), триптофан (W) и цистеин (C).
Самая большая разница между частотами встречаемости остатков в протеомах в пользу E. coli составляет 1,5597% (изолейцин, I), а в пользу Desulfarculus baarsii DSM 2075 - 3,1745% (аланин, A).

Изучение программы compseq

С помощью команды man (bash) изучены команды wordcount и compseq.

Таблица 1. "Справка для пользователя"
критерий wordcount compseq
Что делает Считает слова определенной длины в последовательности ДНК. Отображает все слова заданной длины и сколько раз они встречаются Считает композиции димеров/тримеров/... слов в последовательности
Что принимает на вход Любые последовательности USA Последовательность USA
Что выдает на выходе 2 столбца, разделенные табулятором. В первом столбце содержатся все слова заданной длины, во втором - сколько раз слово встретилось в последовательности Заглавная информация с # в начале строки, длина слова и сколько всего слов (на разных строках), заголовки столбцов, защищенные #. В слолбацх (по порядку): слово заданной длины, сколько раз встретилось, полученная частота, предполагаемая частота, отношение полученной частоты к предполагаемой. После того, как столбцы закончатся, следует пустая строка, затем следует строка с нетипичнымы (other) словами (вроде кодов по IUPAC и прочего) также с встречаемостью и частотой (как у слов выше)
Exit status 0 if successful. It always exits with status 0 unless one of the above error conditions is found

Для выполнения работы, аналогичной заданию 1, я бы выбрала команду compseq, поскольку wordcount считает только количество слов, но в работе требуется почитать частоту по каждой аминокислоте, а биоинформатики люди ленивые... В общем, пусть лучше compseq нам сама все посчитает :)