Home About Materials FBB site


№ 1. Из UniProt были скачаны следующие полные протеомы:
1) ID UP000002524 - протеом Deinococcus radiodurans (strain ATCC 13939 / DSM 20539 / JCM 16871 / LMG 4051 / NBRC 15346 / NCIMB 9279 / R1 / VKM B-1422)
2) ID UP000000625 - протеом Escherichia coli (strain K12) (Strain: K12 / MG1655 / ATCC 47076)


№ 2, 3. Число последовательностей в каждом протеоме было подсчитано двумя методами: скриптом python (ВНИМАНИЕ, написано на python 3 !, для python 2 надо убрать скобки в команде print), команда запуска [ python pr6.py "Deinococcus radiodurance proteome.fasta" ] и [ python pr6.py "E.coli K-12 proteome.fasta" ] ; а также командами bash [ grep -c ">" Deinococcus\ radiodurance\ proteome.fasta ] и [ grep -c ">" E.coli\ K-12\ proteome.fasta ]. Получилось, что в протеоме Deinococcus radiodurans 3085 последовательностей, а в протеоме Escherichia coli K12 их 4313. Собственно, это совпадает и с числами, представленными в колонке Protein count для соответствующих протеомов.





Число аминокислот было посчитано командами EMBOSS [ wordcount Deinococcus\ radiodurance\ proteome.fasta -wordsize=1 -outfile=deira.txt ] и [ wordcount E.coli\ K-12\ proteome.fasta -wordsize=1 -outfile=ecoli.txt ]. Эти команды создавали файлы с перечислением количества вхождений всех аминокислот в протеоме. Таким образом, сложив их, мы получили общее количество аминокислот этого протеома. Подсчет, кстати говоря, выполнялся не вручную (легко ошибиться, оперируя большими числами, да и просто лень), а с помощью скромненького скрипта python (ВНИМАНИЕ, написано на python 3 !), команда запуска [ python pr6-2.py deira.txt ] и [ python pr6-2.py ecoli.txt ]. Получилось, что протеом Deinococcus radiodurans содержит 949276 аминокислот, а протеом Escherichia coli K12 - 1351622 аминокислот.


№ 4. Был вычислен процент каждой аминокислоты в каждом протеоме, посчитана разность процентов для каждой аминокислоты. Ниже представлена таблица, упорядоченная по убыванию процентов встречаемости аминокислот в протеоме Deinococcus radiodurans. Таблица создана с помощью Excel и вставлена в html-файл также средствами Excel (поэтому она такая корявая).
Ссылка на файл xlsx

Сравнительная таблица процентов встречаемости аминокислот

Код аминокислоты Процент в протеоме D.radiodurans Процент в протеоме E.coli K-12 Разность процентов
A 12,2051% 9,5115% 2,6936%
L 11,6509% 10,6758% 0,9751%
G 9,1985% 7,3705% 1,8280%
V 7,6874% 7,0731% 0,6144%
R 7,3756% 5,5186% 1,8570%
P 6,0496% 4,4283% 1,6212%
T 5,8149% 5,3940% 0,4208%
E 5,7315% 5,7660% 0,0344%
S 5,1999% 5,7967% 0,5968%
D 5,0688% 5,1491% 0,0803%
Q 4,1182% 4,4434% 0,3252%
I 3,2839% 6,0098% 2,7259%
F 3,1560% 3,8927% 0,7367%
K 2,7168% 4,4057% 1,6889%
N 2,4071% 3,9369% 1,5298%
Y 2,3028% 2,8447% 0,5418%
H 2,0855% 2,2677% 0,1822%
M 1,8915% 2,8225% 0,9310%
W 1,3882% 1,5319% 0,1436%
C 0,6679% 1,1609% 0,4930%
U 0,0000% 0,0002% 0,0002%


Комментарий к таблице:
У D.radiodurans и E.coli K-12 наблюдается некоторое сходство в составе протеомов: у них совпадают 3 самые часто встречающиеся аминокислоты (аланин A, лейцин L, глицин G); и лишь одна среди 3 самые редко встречающихся аминокислот различается: у D.radiodurans это метионин M, триптофан W и цистеин C ; у E.coli K-12 - гистидин H, триптофан W и цистеин C (селеноцистеин U мы не учитывали, т.к. у D.radiodurans его вообще нет). Самая большая разница в процентах в пользу D.radiodurans - у аланина A (2,6936%). Самая большая разница в процентах в пользу E.coli K-12 - у изолейцина I (2,7259%).

Справка по команде compseq

Compseq, так же как и wordcount, подсчитывает количество слов заданной длины (n-меров). Но compseq помимо этого умеет считать частоту встречаемости этих уникальных слов (предполагаемую, наблюдаемую и их частное).

Обязательные опции:
[-sequence] имя файла, содержащего последовательность(и)
-word число, равное длине подсчитываемых n-меров
[-outfile] имя выходного файла
Здесь видна полная аналогия с wordcount (единственное отличие - в случае wordcount опция, задающая длину слов, называется -wordsize).

Но дополнительных опций у compseq больше. Их них стоит обратить внимание на:
-infile чтобы использовать файл, заранее созданный командой compseq, чтобы установить предполагаемые частоты
-calcfreq (надо указывать [Y]) чтобы посчитать предполагаемую частоту
-reverse (надо указывать [Y]) чтобы также учитывать n-меры на комплементарной цепи
-frame (указать число >0) чтобы установить рамку считывания и искать n-меры только в ней

Возмножно, задание 1 было бы удобнее выполнять командой compseq.

© Титова Алена, 2018