Отчёт по практикуму 7
В практикуме 7 изучаются возможности работы с биологическими последовательностями в bash, а именно команда grep и пакет EMBOSS.
Частоты остатков в протеомах
Для первого задания из UniProt были скачаны протеомы Escherichia coli (strain K12) (Proteome ID: UP000000625) и Salinibacter ruber (strain DSM 13855 / M31) (Proteome ID: UP000008674) в формате fasta. Файлы были названы ecoli.fasta и salru.fasta соответственно.
Первым делом командами grep -c ‘>’ ecoli.fasta, grep -c ‘>’ salru.fasta было выяснено число последовательностей, записанное в каждом файле. (4352 и 2812 штуки соответственно).
Далее была применена программа wordcount для подсчёта абсолютных частот аминокислотных остатков в протеоме. (Синтаксис команд: wordcount -sequence ecoli.fasta -outfile ecoli.txt -wordsize 1, wordcount -sequence salru.fasta -outfile salru.txt -wordsize 1). Данные из текстовых файлов были переведены в вид html-таблиц при помощи сайта Text To HTML Converter. См. в таблице 1 данные по E. coli, в таблице 2 — по S. ruber.
Аминокислотный остаток | Содержание в протеоме, шт. |
---|---|
L | 144488 |
A | 128666 |
G | 99690 |
V | 95687 |
I | 81357 |
S | 78483 |
E | 77984 |
R | 74712 |
T | 73007 |
D | 69656 |
Q | 60126 |
P | 59938 |
K | 59642 |
N | 53299 |
F | 52705 |
Y | 38502 |
M | 38236 |
H | 30714 |
W | 20735 |
C | 15727 |
U | 3 |
Аминокислотный остаток | Содержание в протеоме, шт. |
---|---|
A | 107890 |
L | 97662 |
G | 84368 |
V | 79354 |
R | 77774 |
E | 70882 |
D | 70706 |
T | 62693 |
S | 58797 |
P | 56977 |
I | 37395 |
Q | 35769 |
F | 34216 |
Y | 26379 |
N | 24710 |
H | 22450 |
K | 21218 |
M | 19264 |
W | 12606 |
C | 6881 |
Для подсчёта общего размера (а. о.) протеомов, а также относительного содержания аминокислот в них был разработан сценарий на языке Python. Его можно скачать. Исполняется он командой ./script.py при условии наличия в папке файлов ecoli.fasta и salru.fasta. Результаты подсчёта долей остатков представлены в таблице 3. Общее число остатков получилось таким: E. coli — 1353365, S. ruber — 1007991.
Остаток | Процент у S. ruber | Процент у E. coli | Разность процентов |
---|---|---|---|
A | 10.7 | 9.5 | 1.2 |
L | 9.7 | 10.7 | -1.0 |
G | 8.4 | 7.4 | 1.0 |
V | 7.9 | 7.1 | 0.8 |
R | 7.7 | 5.5 | 2.2 |
E | 7.0 | 5.8 | 1.3 |
D | 7.0 | 5.1 | 1.9 |
T | 6.2 | 5.4 | 0.8 |
S | 5.8 | 5.8 | 0.0 |
P | 5.7 | 4.4 | 1.2 |
I | 3.7 | 6.0 | -2.3 |
Q | 3.5 | 4.4 | -0.9 |
F | 3.4 | 3.9 | -0.5 |
Y | 2.6 | 2.8 | -0.2 |
N | 2.5 | 3.9 | -1.5 |
H | 2.2 | 2.3 | -0.0 |
K | 2.1 | 4.4 | -2.3 |
M | 1.9 | 2.8 | -0.9 |
W | 1.3 | 1.5 | -0.3 |
C | 0.7 | 1.2 | -0.5 |
U | 0.0000 | 0.0002 | -0.0002 |
Как видно, три самых частых остатка в каждом из протеомов — аланин, лейцин и глицин. Три последних же (без учёта селеноцистеина U) разнятся: у S. ruber мы имеем метионин, триптофан и цистеин, у E. coli место метионина занимает гистидин. Самый большой перевес в сторону Salinibacter у аргинина, в сторону Escherichia же — у лизина и изолейцина.
Итак, у бактерий наиболее частотные остатки аминокислот в протеоме &mdash лейцин, аланин и глицин. Триптофан и цистеин встрречаются довольно редко. Это можно было узнать с помощью программы wordcount, как и написав сценарий на Python. Размеры протеомов разных бактерий оказались не равны, но сопоставимы.