Карань Анна
студентка факультета биоинженерии и бионформатики

Таблица 1. Общая информация о протеомах
Название бактерииИдентификаторы протеомовЧисло последоватльностейЧисло остатков
Neisseria meningitidis MC58 UP0000004252001583208
Escherichia coli (strain K12)UP00000062543061356086

Таблица 2. Единая таблица процентов букв в обоих организмах
Аминокислотный остатокПроцент в Escherichia coliПроцент в Neisseria meningitidis MC58 (strain K12)Разность процентов
A9.5154%10.1417%-0.6263%
L10.6726%9.863%0.8096%
G7.3746%7.7662%-0.3916%
V7.0734%6.7844%0.289%
E5.7628%6.1573%-0.3945%
I6.0103%5.8588%0.1515%
K4.4061%5.6404%-1.2343%
S5.8023%5.5466%0.2557%
R5.511%5.4814%0.0296%
D5.151%5.2674%-0.1164%
T5.3991%5.2263%0.1728%
P4.4254%4.1839%0.2415%
N3.9454%4.1165%-0.1711%
F3.8905%4.1037%-0.2132%
Q4.4401%4.0049%0.4352%
Y2.8453%2.9679%-0.1226%
M2.8193%2.4557%0.3636%
H2.2664%2.2038%0.0626%
W1.5312%1.1769%0.3543%
C1.1576%1.0531%0.1045%
U0.0002%0.0000%0.0002%

Код питона для получения таблицы из данных, полученный после команды wordcount в bash, примененной к fasta данным, скаченным с Uniprot

В E.coli и N.meningitidis первые три самых распространенных аминокислотных остатка (а.о.) одинаковы - L (лейцин), A (аланин), G (глицин), однако, у E.coli самый распространенный а.о. - L, а у N.meningitidis - A. Три самых нераспространенных остатка: W (триптофан), C (цистеин), U(селеноцистеин) у E.coli, и H, W, C N.meningitidis, однако у E.coli четвертый с конца - H, так что разница лишь в том, что у N.meningitidis нет U. Самая большая разница в процентоном содержании а.о. заметная для K(лизин), она больше 1 процента (больше у Neisseria meningitidis MC58), что не наблюдается больше ни для какого остатка.

5. Сравнение программа wordcount и compseq

Текст help для программы compseq

Текст help для программы wordcount

Чтобы сравнить эти программы посмотрим их -help. Как видно help для compseq значительно длинее, т.е. это программа обладает намного большими возможностями. Для обеих есть 3 основных параметра: входной файл с последовательностями, длина слова и выходной файл. Из дополнительных у wordcount только минимальная длина слова. Для compseq же их сильно больше. -frame - позволяет считать частоту, сдвигаю рамку всегда на длину слово. Эта функция может пригодится для анализа нуклеотидных последовательностей белков, где важно посмотреть именно определенную рамку считывания. -[no]ignorebz - позволяет не считать некоторые аминокислоты. -reverse - дает возможность проводить расчеты для комплементраной цепи.
Т.е. данные программы предназначены для разного уровня сложности подсчетов. Для выполненного задания больше подойдет wordcount, потому что больше и не требуется, а у compseq дольше читать help. Для более сложных задач compseq больше подойдет.


©Карань Анна, 2015