Главная Семестры Обо мне

EMBOSS и протеомы

Из базы данных Uniprot были скачаны два протеома в fasta-формате. Число последовательностей, число различных аминокислотных остатков и их сумма были подсчитаны с помощью команд grep -c -E "^>" #file_name, wordcount #file_name (с дополнительными аргументами) и awk '{a += $2} END {print a}' #file_name соответственно.


Escherichia coli

Идентификатор: UP000000625

Количество последовательностей: 4352

Число аминокислотных остатков в протеоме: 1353357


Acetobacterium woodii

Идентификатор: UP000007177

Количество последовательностей: 3445

Число аминокислотных остатков в протеоме: 1138432


Была составлена таблица, описывающая частоту встречаемости аминокислотных остатков в протеомах двух бактерий и их разность (таблица 1). Скрипт на языке R, который был использован для ее создания, доступен для скачивания. На данную html-страницу таблица была перенесена с минимальными изменениями.

Таблица 1. Аминокислоты в протеомах
Residues A.woodii, % E.coli, % Difference, %
L 9.3914 10.6763 1.2849
I 8.7250 6.0115 -2.7135
A 7.2182 9.5072 2.2890
K 7.1231 4.4070 -2.7162
E 6.9489 5.7623 -1.1866
G 6.8106 7.3661 0.5555
V 6.6038 7.0704 0.4665
S 5.7530 5.7991 0.0461
D 5.5868 5.1469 -0.4399
T 5.5468 5.3945 -0.1523
N 5.1690 3.9383 -1.2308
F 4.3465 3.8944 -0.4521
R 3.6732 5.5205 1.8473
Y 3.6695 2.8449 -0.8246
Q 3.4623 4.4427 0.9804
P 3.3193 4.4288 1.1095
M 2.9187 2.8253 -0.0934
H 1.6799 2.2695 0.5895
C 1.2509 1.1621 -0.0889
W 0.8029 1.5321 0.7293

Для E.coli самыми частыми остатками являются лейцин, аланин и глицин (10.6763%, 9.5072%, 7.3661%), а для A.woodii - лейцин, изолейцин и аланин (9.3914%, 9.3914%, 9.3914%). Самые редкие аминокислоты у бактерий совпадают: это гистидин, триптофан и цистеин. Самая большая разница в содержании остатков в пользу E.coli наблюдается для остатков аланина (2.2890%), а в пользу A.woodii - для остатков лизина (2.7162%).

P.S. Скрипт должен бы запускаться командой Rscript making_table.R, но это, к сожалению, так просто не работает (видимо, из-за необходимых пакетов). Он использует изначальные fasta-файлы с протеомами и переводит их в html-табличку, которой нужны минимальные изменения: название, значок процентов в заголовках столбцов, про которые я изначально забыла и решила потом не добавлять в код, и уничтожение правого выравнивания, от которого я быстро избавиться в R не смогла, и решила махнуть рукой (в конце концов, с помощью Far'а это исправляется тремя нажатиями клавиш). Файлы, полученные в результате работы команды wordcount, лежат в папке /home/students/y18/adodonova/term2/block2/pr7 вместе со скачанными протеомами.

Сравнение wordcount и compseq

Форматы стандартного запроса у команд очень похожи (они обе требуют файл с последовательностью, файл для записи и длину слова). Тем не менее, у compseq есть несколько неожиданно приятных дополнительных опций: установка ожидаемых частот из ранее сгенерированного файла (об этом далее, но размер искомых строк и тип последовательности должны совпадать в обоих файлах) с помощью -infile, анализ обратной цепи с помощью -reverse, изменение длины сдвига рамки считывания с помощью -frame и некоторые другие, которые показались мне менее интересными.

Файл, полученный в результате работы wordcount, содержит две колонки, разделенные с помощью '\t': последовательности и их количество в анализируемом файле. Output у compseq намного обширнее: в начале идут строки, отмеченные # и содержащие общую информацию и комментарии, затем данные о команде - длина искомых слов и их общее количество, - а затем удобная таблица, содержащая сами слова, их количество, наблюдаемую частоту, ожидаемую частоту (из предположения, что все слова распределены равномерно) и отношение двух последних величин. Для всего странного в таблице есть отдельная строка Other.

В целом, команда compseq выглядит пластичнее, дружелюбнее и полнее, так что для последующей работы я бы предпочла использовать ее.