Навигация по сайту:
|
Практикум 6. EMBOSS и протеомы.
Задание 1.
Для работы в EMBOSS были взяты два протеома: Escherichia coli, штамм K12 (Proteome ID: UP000000625) и Rhizobium leguminosarum bv. viciae, штамм 3841 (Proteome ID: UP000006575), причем был взят полный протеом, то есть с учетом плазмид pRL7 - pRL12. С помощью команды
grep -c '>' было посчитано количество последовательностей в протеомах: 4313 и 7091 соответственно. Скриптом: python total_aa.py <input> <output> было найдено число аминокислот в каждом протеоме: у E.coli 1351622, у R.leguminosarum 2217679.
Частоты встречаемости различных аминокислот в исследуемых протеомах
Однобуквенный код | Частота встречаемости в R.leguminosarum, % | Частота встречаемости в E.coli, % | Разность частот, % |
A | 11.8076 | 9.5115 | 2.2961 |
L | 9.9499 | 10.6758 | 0.7259 |
G | 8.2654 | 7.3705 | 0.8949 |
V | 7.2492 | 7.0731 | 0.1761 |
R | 6.7215 | 5.5186 | 1.2029 |
S | 5.8964 | 5.7967 | 0.0997 |
I | 5.7881 | 6.0098 | 0.2217 |
E | 5.7145 | 5.766 | 0.0515 |
D | 5.6987 | 5.1491 | 0.5496 |
T | 5.3326 | 5.394 | 0.0614 |
P | 4.9038 | 4.4283 | 0.4755 |
F | 3.954 | 3.8927 | 0.0613 |
K | 3.6668 | 4.4057 | 0.7389 |
Q | 3.0936 | 4.4434 | 1.3498 |
N | 2.8552 | 3.9369 | 1.0817 |
M | 2.596 | 2.8225 | 0.2265 |
Y | 2.3366 | 2.8447 | 0.5081 |
H | 2.0423 | 2.2677 | 0.2254 |
W | 1.3143 | 1.5319 | 0.2176 |
C | 0.8134 | 1.1609 | 0.3475 |
U | 0 | 0.002 | 0.002 |
Значения частот были получены с помощью скрипта:
python aa_freq_table <input> <output> , файл <input> был подготовлен с помощью wordcount и cat; для селеноцистеина частоты посчитал вручную. Три самые редкие и частые аминокислоты в протеомах одни и те же: в случае самых частых это аланин, глицин, лейцин, в случае редких — гистидин, цистеин, триптофан. Больше всего по сравнению с E.coli в R.leguminosarum оказалось
аланина (на 2.2961%), а меньше всего — глутамина (на 1.3498%).
Задание 2.
Программа compseq считает не только количество каждой аминокислоты в последовательностях
внутри файла, но и сразу считает наблюдаемые частоты встречаемости, частоты из предположения, что все аминокислоты встречаются с одинаковой частотой (что неверно, по их же заявлянию) а также то, во сколько раз наблюдаемая частота превосходит гипотетическую. Стоит, однако, заметить, что compseq считывает некие "other" аминокислоты (к примеру, в протеоме E.coli их 8). Таким образом, по версии compseq в протеоме E.coli 1351630 аминокислот. В целом, воспользоваться compseq, чтобы выполнить задание 1 более удобно, чем wordcount.
|