Частоты остатков в протеомах Escherichia coli K12 и Desulfarculus baarsii DSM 2075
Из UniProt были загружены протеомы E. coli str. K12 и Desulfarculus baarsii DSM 2075.
Протеомы в fasta-формате были помещены в мою папку на kodomo, и затем в Putty с помощью команд grep (bash) и wordcount (EMBOSS) были посчитаны сначала число последовательностей, а затем число аминокислот (по каждой аминокислоте) в каждом протеоме.
Escherichia coli str. K12
Proteome ID: UP000000625
Число последовательностей: 4352
Число аминокислот: 1353357
Desulfarculus baarsii DSM 2075
Proteome ID: UP000009047
Число последовательностей: 3268
Число аминокислот: 1096967
Таблица с результатами поиска. В конце страницы - скрипт Python, делающий таблицу из cvs-файла в той же директории (разделитель - ";").
остаток (однобуквенный код) | % в протеоме Desulfarculus baarsii DSM 2075 | % в протеоме E. coli str. K12 | разность процентов [2]-[1] |
---|---|---|---|
L | 11,2450 | 10,6763 | -0,5687 |
A | 12,6817 | 9,5072 | -3,1745 |
G | 8,8416 | 7,3661 | -1,4754 |
V | 7,2609 | 7,0703 | -0,1906 |
I | 4,4518 | 6,0115 | 1,5597 |
S | 4,5884 | 5,7991 | 1,2108 |
E | 5,7927 | 5,7623 | -0,0304 |
R | 7,0945 | 5,5205 | -1,5740 |
T | 4,1236 | 5,3945 | 1,2709 |
D | 5,5044 | 5,1469 | -0,3575 |
Q | 4,0937 | 4,4427 | 0,3491 |
P | 5,1785 | 4,4288 | -0,7496 |
K | 3,6657 | 4,4070 | 0,7413 |
N | 2,5377 | 3,9383 | 1,4006 |
F | 3,4021 | 3,8944 | 0,4923 |
Y | 2,2811 | 2,8449 | 0,5638 |
M | 2,6674 | 2,8253 | 0,1579 |
H | 2,0012 | 2,2695 | 0,2682 |
W | 1,3180 | 1,5321 | 0,2141 |
C | 1,2699 | 1,1621 | -0,1078 |
U | 0,0003 | 0,0002 | -0,0001 |
Скачать таблицу в формате Excel или csv.
Скачать код таблицы в Python (этот код возьмет файл pr7_1.csv и создаст таблицу table_pr7.html в той же директории).
Важно: работает, если установлена библиотека prettytable. Если ее нет, нужно установить библиотеку с помощью ввода в командную строку следующей команды: "pip install PrettyTable".
В обоих рассмотренных выше протеомах чаще всего встречаются лейцин (L), аланин (А) и глицин (G). Мы не рассматриваем селеноцистеин (U), а, значит, можно сказать, что самые редкие остатки в протеомах - гистидин (H), триптофан (W) и цистеин (C).
Самая большая разница между частотами встречаемости остатков в протеомах в пользу E. coli составляет 1,5597% (изолейцин, I), а в пользу Desulfarculus baarsii DSM 2075 - 3,1745% (аланин, A).
Изучение программы compseq
С помощью команды man (bash) изучены команды wordcount и compseq.
критерий | wordcount | compseq |
---|---|---|
Что делает | Считает слова определенной длины в последовательности ДНК. Отображает все слова заданной длины и сколько раз они встречаются | Считает композиции димеров/тримеров/... слов в последовательности |
Что принимает на вход | Любые последовательности USA | Последовательность USA |
Что выдает на выходе | 2 столбца, разделенные табулятором. В первом столбце содержатся все слова заданной длины, во втором - сколько раз слово встретилось в последовательности | Заглавная информация с # в начале строки, длина слова и сколько всего слов (на разных строках), заголовки столбцов, защищенные #. В слолбацх (по порядку): слово заданной длины, сколько раз встретилось, полученная частота, предполагаемая частота, отношение полученной частоты к предполагаемой. После того, как столбцы закончатся, следует пустая строка, затем следует строка с нетипичнымы (other) словами (вроде кодов по IUPAC и прочего) также с встречаемостью и частотой (как у слов выше) |
Exit status | 0 if successful. | It always exits with status 0 unless one of the above error conditions is found |
Для выполнения работы, аналогичной заданию 1, я бы выбрала команду compseq, поскольку wordcount считает только количество слов, но в работе требуется почитать частоту по каждой аминокислоте, а биоинформатики люди ленивые... В общем, пусть лучше compseq нам сама все посчитает :)