Home	About	Materials	FBB site

№ 1. Из UniProt были скачаны следующие полные протеомы:
1) ID UP000002524 - протеом Deinococcus radiodurans (strain ATCC 13939 / DSM 20539 / JCM 16871 / LMG 4051 / NBRC 15346 / NCIMB 9279 / R1 / VKM B-1422)
2) ID UP000000625 - протеом Escherichia coli (strain K12) (Strain: K12 / MG1655 / ATCC 47076)

№ 2, 3. Число последовательностей в каждом протеоме было подсчитано двумя методами: скриптом python (ВНИМАНИЕ, написано на python 3 !, для python 2 надо убрать скобки в команде print), команда запуска [ python pr6.py "Deinococcus radiodurance proteome.fasta" ] и [ python pr6.py "E.coli K-12 proteome.fasta" ] ; а также командами bash [ grep -c ">" Deinococcus\ radiodurance\ proteome.fasta ] и [ grep -c ">" E.coli\ K-12\ proteome.fasta ]. Получилось, что в протеоме Deinococcus radiodurans 3085 последовательностей, а в протеоме Escherichia coli K12 их 4313. Собственно, это совпадает и с числами, представленными в колонке Protein count для соответствующих протеомов.

Число аминокислот было посчитано командами EMBOSS [ wordcount Deinococcus\ radiodurance\ proteome.fasta -wordsize=1 -outfile=deira.txt ] и [ wordcount E.coli\ K-12\ proteome.fasta -wordsize=1 -outfile=ecoli.txt ]. Эти команды создавали файлы с перечислением количества вхождений всех аминокислот в протеоме. Таким образом, сложив их, мы получили общее количество аминокислот этого протеома. Подсчет, кстати говоря, выполнялся не вручную (легко ошибиться, оперируя большими числами, да и просто лень), а с помощью скромненького скрипта python (ВНИМАНИЕ, написано на python 3 !), команда запуска [ python pr6-2.py deira.txt ] и [ python pr6-2.py ecoli.txt ]. Получилось, что протеом Deinococcus radiodurans содержит 949276 аминокислот, а протеом Escherichia coli K12 - 1351622 аминокислот.

№ 4. Был вычислен процент каждой аминокислоты в каждом протеоме, посчитана разность процентов для каждой аминокислоты. Ниже представлена таблица, упорядоченная по убыванию процентов встречаемости аминокислот в протеоме Deinococcus radiodurans. Таблица создана с помощью Excel и вставлена в html-файл также средствами Excel (поэтому она такая корявая).
Ссылка на файл xlsx

Сравнительная таблица процентов встречаемости аминокислот

Код аминокислоты	Процент в протеоме D.radiodurans	Процент в протеоме E.coli K-12	Разность процентов
A	12,2051%	9,5115%	2,6936%
L	11,6509%	10,6758%	0,9751%
G	9,1985%	7,3705%	1,8280%
V	7,6874%	7,0731%	0,6144%
R	7,3756%	5,5186%	1,8570%
P	6,0496%	4,4283%	1,6212%
T	5,8149%	5,3940%	0,4208%
E	5,7315%	5,7660%	0,0344%
S	5,1999%	5,7967%	0,5968%
D	5,0688%	5,1491%	0,0803%
Q	4,1182%	4,4434%	0,3252%
I	3,2839%	6,0098%	2,7259%
F	3,1560%	3,8927%	0,7367%
K	2,7168%	4,4057%	1,6889%
N	2,4071%	3,9369%	1,5298%
Y	2,3028%	2,8447%	0,5418%
H	2,0855%	2,2677%	0,1822%
M	1,8915%	2,8225%	0,9310%
W	1,3882%	1,5319%	0,1436%
C	0,6679%	1,1609%	0,4930%
U	0,0000%	0,0002%	0,0002%

Комментарий к таблице:
У D.radiodurans и E.coli K-12 наблюдается некоторое сходство в составе протеомов: у них совпадают 3 самые часто встречающиеся аминокислоты (аланин A, лейцин L, глицин G); и лишь одна среди 3 самые редко встречающихся аминокислот различается: у D.radiodurans это метионин M, триптофан W и цистеин C ; у E.coli K-12 - гистидин H, триптофан W и цистеин C (селеноцистеин U мы не учитывали, т.к. у D.radiodurans его вообще нет). Самая большая разница в процентах в пользу D.radiodurans - у аланина A (2,6936%). Самая большая разница в процентах в пользу E.coli K-12 - у изолейцина I (2,7259%).

Справка по команде compseq

Compseq, так же как и wordcount, подсчитывает количество слов заданной длины (n-меров). Но compseq помимо этого умеет считать частоту встречаемости этих уникальных слов (предполагаемую, наблюдаемую и их частное).

Обязательные опции:
[-sequence] имя файла, содержащего последовательность(и)
-word число, равное длине подсчитываемых n-меров
[-outfile] имя выходного файла
Здесь видна полная аналогия с wordcount (единственное отличие - в случае wordcount опция, задающая длину слов, называется -wordsize).

Но дополнительных опций у compseq больше. Их них стоит обратить внимание на:
-infile чтобы использовать файл, заранее созданный командой compseq, чтобы установить предполагаемые частоты
-calcfreq (надо указывать [Y]) чтобы посчитать предполагаемую частоту
-reverse (надо указывать [Y]) чтобы также учитывать n-меры на комплементарной цепи
-frame (указать число >0) чтобы установить рамку считывания и искать n-меры только в ней

Возмножно, задание 1 было бы удобнее выполнять командой compseq.