Отчёт по практикуму 7

В практикуме 7 изучаются возможности работы с биологическими последовательностями в bash, а именно команда grep и пакет EMBOSS.

Частоты остатков в протеомах

Для первого задания из UniProt были скачаны протеомы Escherichia coli (strain K12) (Proteome ID: UP000000625) и Salinibacter ruber (strain DSM 13855 / M31) (Proteome ID: UP000008674) в формате fasta. Файлы были названы ecoli.fasta и salru.fasta соответственно.

Первым делом командами grep -c ‘>’ ecoli.fasta, grep -c ‘>’ salru.fasta было выяснено число последовательностей, записанное в каждом файле. (4352 и 2812 штуки соответственно).

Далее была применена программа wordcount для подсчёта абсолютных частот аминокислотных остатков в протеоме. (Синтаксис команд: wordcount -sequence ecoli.fasta -outfile ecoli.txt -wordsize 1, wordcount -sequence salru.fasta -outfile salru.txt -wordsize 1). Данные из текстовых файлов были переведены в вид html-таблиц при помощи сайта Text To HTML Converter. См. в таблице 1 данные по E. coli, в таблице 2 — по S. ruber.

Таблица 1. Абсолютное содержание аминокислот в протеоме E. coli
Аминокислотный остатокСодержание в протеоме, шт.
L144488
A128666
G99690
V95687
I81357
S78483
E77984
R74712
T73007
D69656
Q60126
P59938
K59642
N53299
F52705
Y38502
M38236
H30714
W20735
C15727
U3
Таблица 2. Абсолютное содержание аминокислот в протеоме S. ruber
Аминокислотный остатокСодержание в протеоме, шт.
A107890
L97662
G84368
V79354
R77774
E70882
D70706
T62693
S58797
P56977
I37395
Q35769
F34216
Y26379
N24710
H22450
K21218
M19264
W12606
C6881

Для подсчёта общего размера (а. о.) протеомов, а также относительного содержания аминокислот в них был разработан сценарий на языке Python. Его можно скачать. Исполняется он командой ./script.py при условии наличия в папке файлов ecoli.fasta и salru.fasta. Результаты подсчёта долей остатков представлены в таблице 3. Общее число остатков получилось таким: E. coli — 1353365, S. ruber — 1007991.

Таблица 3. Аминокислотный состав протеомов
ОстатокПроцент у S. ruberПроцент у E. coliРазность процентов
A10.79.51.2
L9.710.7-1.0
G8.47.41.0
V7.97.10.8
R7.75.52.2
E7.05.81.3
D7.05.11.9
T6.25.40.8
S5.85.80.0
P5.74.41.2
I3.76.0-2.3
Q3.54.4-0.9
F3.43.9-0.5
Y2.62.8-0.2
N2.53.9-1.5
H2.22.3-0.0
K2.14.4-2.3
M1.92.8-0.9
W1.31.5-0.3
C0.71.2-0.5
U0.00000.0002-0.0002

Как видно, три самых частых остатка в каждом из протеомов — аланин, лейцин и глицин. Три последних же (без учёта селеноцистеина U) разнятся: у S. ruber мы имеем метионин, триптофан и цистеин, у E. coli место метионина занимает гистидин. Самый большой перевес в сторону Salinibacter у аргинина, в сторону Escherichia же — у лизина и изолейцина.

Итак, у бактерий наиболее частотные остатки аминокислот в протеоме &mdash лейцин, аланин и глицин. Триптофан и цистеин встрречаются довольно редко. Это можно было узнать с помощью программы wordcount, как и написав сценарий на Python. Размеры протеомов разных бактерий оказались не равны, но сопоставимы.