EMBOSS и протеомы
Из базы данных Uniprot были скачаны два протеома в fasta-формате. Число последовательностей, число различных аминокислотных остатков и их сумма были подсчитаны с помощью команд grep -c -E "^>" #file_name, wordcount #file_name (с дополнительными аргументами) и awk '{a += $2} END {print a}' #file_name соответственно.
Escherichia coli
Идентификатор: UP000000625
Количество последовательностей: 4352
Число аминокислотных остатков в протеоме: 1353357
Acetobacterium woodii
Идентификатор: UP000007177
Количество последовательностей: 3445
Число аминокислотных остатков в протеоме: 1138432
Была составлена таблица, описывающая частоту встречаемости аминокислотных остатков в протеомах двух бактерий и их разность (таблица 1). Скрипт на языке R, который был использован для ее создания, доступен для скачивания. На данную html-страницу таблица была перенесена с минимальными изменениями.
Residues | A.woodii, % | E.coli, % | Difference, % |
---|---|---|---|
L | 9.3914 | 10.6763 | 1.2849 |
I | 8.7250 | 6.0115 | -2.7135 |
A | 7.2182 | 9.5072 | 2.2890 |
K | 7.1231 | 4.4070 | -2.7162 |
E | 6.9489 | 5.7623 | -1.1866 |
G | 6.8106 | 7.3661 | 0.5555 |
V | 6.6038 | 7.0704 | 0.4665 |
S | 5.7530 | 5.7991 | 0.0461 |
D | 5.5868 | 5.1469 | -0.4399 |
T | 5.5468 | 5.3945 | -0.1523 |
N | 5.1690 | 3.9383 | -1.2308 |
F | 4.3465 | 3.8944 | -0.4521 |
R | 3.6732 | 5.5205 | 1.8473 |
Y | 3.6695 | 2.8449 | -0.8246 |
Q | 3.4623 | 4.4427 | 0.9804 |
P | 3.3193 | 4.4288 | 1.1095 |
M | 2.9187 | 2.8253 | -0.0934 |
H | 1.6799 | 2.2695 | 0.5895 |
C | 1.2509 | 1.1621 | -0.0889 |
W | 0.8029 | 1.5321 | 0.7293 |
Для E.coli самыми частыми остатками являются лейцин, аланин и глицин (10.6763%, 9.5072%, 7.3661%), а для A.woodii - лейцин, изолейцин и аланин (9.3914%, 9.3914%, 9.3914%). Самые редкие аминокислоты у бактерий совпадают: это гистидин, триптофан и цистеин. Самая большая разница в содержании остатков в пользу E.coli наблюдается для остатков аланина (2.2890%), а в пользу A.woodii - для остатков лизина (2.7162%).
P.S. Скрипт должен бы запускаться командой Rscript making_table.R, но это, к сожалению, так просто не работает (видимо, из-за необходимых пакетов). Он использует изначальные fasta-файлы с протеомами и переводит их в html-табличку, которой нужны минимальные изменения: название, значок процентов в заголовках столбцов, про которые я изначально забыла и решила потом не добавлять в код, и уничтожение правого выравнивания, от которого я быстро избавиться в R не смогла, и решила махнуть рукой (в конце концов, с помощью Far'а это исправляется тремя нажатиями клавиш). Файлы, полученные в результате работы команды wordcount, лежат в папке /home/students/y18/adodonova/term2/block2/pr7 вместе со скачанными протеомами.
Сравнение wordcount и compseq
Форматы стандартного запроса у команд очень похожи (они обе требуют файл с последовательностью, файл для записи и длину слова). Тем не менее, у compseq есть несколько неожиданно приятных дополнительных опций: установка ожидаемых частот из ранее сгенерированного файла (об этом далее, но размер искомых строк и тип последовательности должны совпадать в обоих файлах) с помощью -infile, анализ обратной цепи с помощью -reverse, изменение длины сдвига рамки считывания с помощью -frame и некоторые другие, которые показались мне менее интересными.
Файл, полученный в результате работы wordcount, содержит две колонки, разделенные с помощью '\t': последовательности и их количество в анализируемом файле. Output у compseq намного обширнее: в начале идут строки, отмеченные # и содержащие общую информацию и комментарии, затем данные о команде - длина искомых слов и их общее количество, - а затем удобная таблица, содержащая сами слова, их количество, наблюдаемую частоту, ожидаемую частоту (из предположения, что все слова распределены равномерно) и отношение двух последних величин. Для всего странного в таблице есть отдельная строка Other.
В целом, команда compseq выглядит пластичнее, дружелюбнее и полнее, так что для последующей работы я бы предпочла использовать ее.