EMBOSS и протеомы

Из базы данных Uniprot были скачаны два протеома в fasta-формате. Число последовательностей, число различных аминокислотных остатков и их сумма были подсчитаны с помощью команд grep -c -E "^>" #file_name, wordcount #file_name (с дополнительными аргументами) и awk '{a += $2} END {print a}' #file_name соответственно.

Escherichia coli

Идентификатор: UP000000625

Количество последовательностей: 4352

Число аминокислотных остатков в протеоме: 1353357

Acetobacterium woodii

Идентификатор: UP000007177

Количество последовательностей: 3445

Число аминокислотных остатков в протеоме: 1138432

Была составлена таблица, описывающая частоту встречаемости аминокислотных остатков в протеомах двух бактерий и их разность (таблица 1). Скрипт на языке R, который был использован для ее создания, доступен для скачивания. На данную html-страницу таблица была перенесена с минимальными изменениями.

Таблица 1. Аминокислоты в протеомах
Residues	A.woodii, %	E.coli, %	Difference, %
L	9.3914	10.6763	1.2849
I	8.7250	6.0115	-2.7135
A	7.2182	9.5072	2.2890
K	7.1231	4.4070	-2.7162
E	6.9489	5.7623	-1.1866
G	6.8106	7.3661	0.5555
V	6.6038	7.0704	0.4665
S	5.7530	5.7991	0.0461
D	5.5868	5.1469	-0.4399
T	5.5468	5.3945	-0.1523
N	5.1690	3.9383	-1.2308
F	4.3465	3.8944	-0.4521
R	3.6732	5.5205	1.8473
Y	3.6695	2.8449	-0.8246
Q	3.4623	4.4427	0.9804
P	3.3193	4.4288	1.1095
M	2.9187	2.8253	-0.0934
H	1.6799	2.2695	0.5895
C	1.2509	1.1621	-0.0889
W	0.8029	1.5321	0.7293

Для E.coli самыми частыми остатками являются лейцин, аланин и глицин (10.6763%, 9.5072%, 7.3661%), а для A.woodii - лейцин, изолейцин и аланин (9.3914%, 9.3914%, 9.3914%). Самые редкие аминокислоты у бактерий совпадают: это гистидин, триптофан и цистеин. Самая большая разница в содержании остатков в пользу E.coli наблюдается для остатков аланина (2.2890%), а в пользу A.woodii - для остатков лизина (2.7162%).

P.S. Скрипт должен бы запускаться командой Rscript making_table.R, но это, к сожалению, так просто не работает (видимо, из-за необходимых пакетов). Он использует изначальные fasta-файлы с протеомами и переводит их в html-табличку, которой нужны минимальные изменения: название, значок процентов в заголовках столбцов, про которые я изначально забыла и решила потом не добавлять в код, и уничтожение правого выравнивания, от которого я быстро избавиться в R не смогла, и решила махнуть рукой (в конце концов, с помощью Far'а это исправляется тремя нажатиями клавиш). Файлы, полученные в результате работы команды wordcount, лежат в папке /home/students/y18/adodonova/term2/block2/pr7 вместе со скачанными протеомами.

Сравнение wordcount и compseq

Форматы стандартного запроса у команд очень похожи (они обе требуют файл с последовательностью, файл для записи и длину слова). Тем не менее, у compseq есть несколько неожиданно приятных дополнительных опций: установка ожидаемых частот из ранее сгенерированного файла (об этом далее, но размер искомых строк и тип последовательности должны совпадать в обоих файлах) с помощью -infile, анализ обратной цепи с помощью -reverse, изменение длины сдвига рамки считывания с помощью -frame и некоторые другие, которые показались мне менее интересными.

Файл, полученный в результате работы wordcount, содержит две колонки, разделенные с помощью '\t': последовательности и их количество в анализируемом файле. Output у compseq намного обширнее: в начале идут строки, отмеченные # и содержащие общую информацию и комментарии, затем данные о команде - длина искомых слов и их общее количество, - а затем удобная таблица, содержащая сами слова, их количество, наблюдаемую частоту, ожидаемую частоту (из предположения, что все слова распределены равномерно) и отношение двух последних величин. Для всего странного в таблице есть отдельная строка Other.

В целом, команда compseq выглядит пластичнее, дружелюбнее и полнее, так что для последующей работы я бы предпочла использовать ее.