pr7, Siling

Частоты остатков в протеомах Escherichia coli K12 и Desulfarculus baarsii DSM 2075

Из UniProt были загружены протеомы E. coli str. K12 и Desulfarculus baarsii DSM 2075.
Протеомы в fasta-формате были помещены в мою папку на kodomo, и затем в Putty с помощью команд grep (bash) и wordcount (EMBOSS) были посчитаны сначала число последовательностей, а затем число аминокислот (по каждой аминокислоте) в каждом протеоме.

Escherichia coli str. K12

Proteome ID: UP000000625

Число последовательностей: 4352

Число аминокислот: 1353357

Desulfarculus baarsii DSM 2075

Proteome ID: UP000009047

Число последовательностей: 3268

Число аминокислот: 1096967

Таблица с результатами поиска. В конце страницы - скрипт Python, делающий таблицу из cvs-файла в той же директории (разделитель - ";").

Таблица 1. Частоты остатков в протеомах.
остаток (однобуквенный код)	% в протеоме Desulfarculus baarsii DSM 2075	% в протеоме E. coli str. K12	разность процентов [2]-[1]
L	11,2450	10,6763	-0,5687
A	12,6817	9,5072	-3,1745
G	8,8416	7,3661	-1,4754
V	7,2609	7,0703	-0,1906
I	4,4518	6,0115	1,5597
S	4,5884	5,7991	1,2108
E	5,7927	5,7623	-0,0304
R	7,0945	5,5205	-1,5740
T	4,1236	5,3945	1,2709
D	5,5044	5,1469	-0,3575
Q	4,0937	4,4427	0,3491
P	5,1785	4,4288	-0,7496
K	3,6657	4,4070	0,7413
N	2,5377	3,9383	1,4006
F	3,4021	3,8944	0,4923
Y	2,2811	2,8449	0,5638
M	2,6674	2,8253	0,1579
H	2,0012	2,2695	0,2682
W	1,3180	1,5321	0,2141
C	1,2699	1,1621	-0,1078
U	0,0003	0,0002	-0,0001

Скачать таблицу в формате Excel или csv.

Скачать код таблицы в Python (этот код возьмет файл pr7_1.csv и создаст таблицу table_pr7.html в той же директории).
Важно: работает, если установлена библиотека prettytable. Если ее нет, нужно установить библиотеку с помощью ввода в командную строку следующей команды: "pip install PrettyTable".

В обоих рассмотренных выше протеомах чаще всего встречаются лейцин (L), аланин (А) и глицин (G). Мы не рассматриваем селеноцистеин (U), а, значит, можно сказать, что самые редкие остатки в протеомах - гистидин (H), триптофан (W) и цистеин (C).
Самая большая разница между частотами встречаемости остатков в протеомах в пользу E. coli составляет 1,5597% (изолейцин, I), а в пользу Desulfarculus baarsii DSM 2075 - 3,1745% (аланин, A).

Изучение программы compseq

С помощью команды man (bash) изучены команды wordcount и compseq.

Таблица 1. "Справка для пользователя"
критерий	wordcount	compseq
Что делает	Считает слова определенной длины в последовательности ДНК. Отображает все слова заданной длины и сколько раз они встречаются	Считает композиции димеров/тримеров/... слов в последовательности
Что принимает на вход	Любые последовательности USA	Последовательность USA
Что выдает на выходе	2 столбца, разделенные табулятором. В первом столбце содержатся все слова заданной длины, во втором - сколько раз слово встретилось в последовательности	Заглавная информация с # в начале строки, длина слова и сколько всего слов (на разных строках), заголовки столбцов, защищенные #. В слолбацх (по порядку): слово заданной длины, сколько раз встретилось, полученная частота, предполагаемая частота, отношение полученной частоты к предполагаемой. После того, как столбцы закончатся, следует пустая строка, затем следует строка с нетипичнымы (other) словами (вроде кодов по IUPAC и прочего) также с встречаемостью и частотой (как у слов выше)
Exit status	0 if successful.	It always exits with status 0 unless one of the above error conditions is found

Для выполнения работы, аналогичной заданию 1, я бы выбрала команду compseq, поскольку wordcount считает только количество слов, но в работе требуется почитать частоту по каждой аминокислоте, а биоинформатики люди ленивые... В общем, пусть лучше compseq нам сама все посчитает :)