Учебный сайт Карань Анны

Карань Анна студентка факультета биоинженерии и бионформатики
Главная	О себе	Учеба	ФББ МГУ

Таблица 1. Общая информация о протеомах
Название бактерии	Идентификаторы протеомов	Число последоватльностей	Число остатков
Neisseria meningitidis MC58	UP000000425	2001	583208
Escherichia coli (strain K12)	UP000000625	4306	1356086

Таблица 2. Единая таблица процентов букв в обоих организмах
Аминокислотный остаток	Процент в Escherichia coli	Процент в Neisseria meningitidis MC58 (strain K12)	Разность процентов
A	9.5154%	10.1417%	-0.6263%
L	10.6726%	9.863%	0.8096%
G	7.3746%	7.7662%	-0.3916%
V	7.0734%	6.7844%	0.289%
E	5.7628%	6.1573%	-0.3945%
I	6.0103%	5.8588%	0.1515%
K	4.4061%	5.6404%	-1.2343%
S	5.8023%	5.5466%	0.2557%
R	5.511%	5.4814%	0.0296%
D	5.151%	5.2674%	-0.1164%
T	5.3991%	5.2263%	0.1728%
P	4.4254%	4.1839%	0.2415%
N	3.9454%	4.1165%	-0.1711%
F	3.8905%	4.1037%	-0.2132%
Q	4.4401%	4.0049%	0.4352%
Y	2.8453%	2.9679%	-0.1226%
M	2.8193%	2.4557%	0.3636%
H	2.2664%	2.2038%	0.0626%
W	1.5312%	1.1769%	0.3543%
C	1.1576%	1.0531%	0.1045%
U	0.0002%	0.0000%	0.0002%
Код питона для получения таблицы из данных, полученный после команды wordcount в bash, примененной к fasta данным, скаченным с Uniprot

В E.coli и N.meningitidis первые три самых распространенных аминокислотных остатка (а.о.) одинаковы - L (лейцин), A (аланин), G (глицин), однако, у E.coli самый распространенный а.о. - L, а у N.meningitidis - A. Три самых нераспространенных остатка: W (триптофан), C (цистеин), U(селеноцистеин) у E.coli, и H, W, C N.meningitidis, однако у E.coli четвертый с конца - H, так что разница лишь в том, что у N.meningitidis нет U. Самая большая разница в процентоном содержании а.о. заметная для K(лизин), она больше 1 процента (больше у Neisseria meningitidis MC58), что не наблюдается больше ни для какого остатка.

5. Сравнение программа wordcount и compseq

Текст help для программы compseq

Текст help для программы wordcount

Чтобы сравнить эти программы посмотрим их -help. Как видно help для compseq значительно длинее, т.е. это программа обладает намного большими возможностями. Для обеих есть 3 основных параметра: входной файл с последовательностями, длина слова и выходной файл. Из дополнительных у wordcount только минимальная длина слова. Для compseq же их сильно больше. -frame - позволяет считать частоту, сдвигаю рамку всегда на длину слово. Эта функция может пригодится для анализа нуклеотидных последовательностей белков, где важно посмотреть именно определенную рамку считывания. -[no]ignorebz - позволяет не считать некоторые аминокислоты. -reverse - дает возможность проводить расчеты для комплементраной цепи.
Т.е. данные программы предназначены для разного уровня сложности подсчетов. Для выполненного задания больше подойдет wordcount, потому что больше и не требуется, а у compseq дольше читать help. Для более сложных задач compseq больше подойдет.