Учебный сайт Сергея Пушкарева

Навигация по сайту:

Практикум 6. EMBOSS и протеомы.

Задание 1.

Для работы в EMBOSS были взяты два протеома: Escherichia coli, штамм K12 (Proteome ID: UP000000625) и Rhizobium leguminosarum bv. viciae, штамм 3841 (Proteome ID: UP000006575), причем был взят полный протеом, то есть с учетом плазмид pRL7 - pRL12. С помощью команды
grep -c '>' было посчитано количество последовательностей в протеомах: 4313 и 7091 соответственно. Скриптом: python total_aa.py <input> <output> было найдено число аминокислот в каждом протеоме: у E.coli 1351622, у R.leguminosarum 2217679.

Частоты встречаемости различных аминокислот в исследуемых протеомах

Однобуквенный кодЧастота встречаемости в R.leguminosarum, %Частота встречаемости в E.coli, %Разность частот, %
A 11.80769.5115 2.2961
L 9.9499 10.67580.7259
G 8.2654 7.3705 0.8949
V 7.2492 7.0731 0.1761
R 6.7215 5.5186 1.2029
S 5.8964 5.7967 0.0997
I 5.7881 6.0098 0.2217
E 5.7145 5.766 0.0515
D 5.6987 5.1491 0.5496
T 5.3326 5.394 0.0614
P 4.9038 4.4283 0.4755
F 3.954 3.8927 0.0613
K 3.6668 4.4057 0.7389
Q 3.0936 4.4434 1.3498
N 2.8552 3.9369 1.0817
M 2.596 2.8225 0.2265
Y 2.3366 2.8447 0.5081
H 2.0423 2.2677 0.2254
W 1.3143 1.5319 0.2176
C 0.8134 1.1609 0.3475
U 00.002 0.002

Значения частот были получены с помощью скрипта: python aa_freq_table <input> <output>, файл <input> был подготовлен с помощью wordcount и cat; для селеноцистеина частоты посчитал вручную. Три самые редкие и частые аминокислоты в протеомах одни и те же: в случае самых частых это аланин, глицин, лейцин, в случае редких — гистидин, цистеин, триптофан. Больше всего по сравнению с E.coli в R.leguminosarum оказалось аланина (на 2.2961%), а меньше всего — глутамина (на 1.3498%).

Задание 2.

Программа compseq считает не только количество каждой аминокислоты в последовательностях внутри файла, но и сразу считает наблюдаемые частоты встречаемости, частоты из предположения, что все аминокислоты встречаются с одинаковой частотой (что неверно, по их же заявлянию) а также то, во сколько раз наблюдаемая частота превосходит гипотетическую. Стоит, однако, заметить, что compseq считывает некие "other" аминокислоты (к примеру, в протеоме E.coli их 8). Таким образом, по версии compseq в протеоме E.coli 1351630 аминокислот. В целом, воспользоваться compseq, чтобы выполнить задание 1 более удобно, чем wordcount.

© Пушкарев Сергей, 2018