УЧЕБНЫЙ САЙТ
Буяновой Мишель
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ
И БИОИНФОРМАТИКИ МГУ им. М.В. ЛОМОНОСОВА
Семестр IV Семестр III Семестр II Cеместр I

Частоты остатков в протеомах

Таблица 1. Общая информация о протеомах[1]

В ходе работы были использованы протеомы организмов Escherichia coli (штамм K12) и Archaeoglobus fulgidus. Рассматривались файлы формата FASTA, взятые из базы данных UniProt.

Общие параметры протеомов
ОрганизмArchaeoglobus fulgidus
(strain ATCC 49558 / VC-16 / DSM 4304 / JCM 9628 / NBRC 100126)
Escherichia coli (strain K12)
Идентификатор
протеома
UP000002199UP000000625
Число последовательностей24004306
Число остатков6616791356086

Таблица 2. Частоты встречаемости остатков в протеомах

Данные о количестве остатков были получены при помощи wordcount. Последующая обработка информации была осуществлена при помощи средств MS Excel.

ОстатокЧастота остатка в протеоме A. fulgidus,
%
Частота остатка в протеоме E. coli,
%
Разность,
%
L9,5005282017413310,6726269572874-1,17209875554604
E8,913838885622795,762835100428733,15100378519405
V8,615658045668677,073445194478821,54221285118985
A7,861364800756869,51539946581559-1,65403466505873
G7,253063796795737,37460603531045-0,121542238514717
I7,2278249725326,010312030357961,21751294217404
K6,859821756471044,406062742333452,45375901413759
R5,763519773183075,511007413984070,252512359199001
S5,507353263440435,80228687561113-0,294933612170704
D4,893460424163385,15100074774019-0,257540323576809
F4,583037998787933,890461224435620,692576774352313
T4,16652183309435,39906761075625-1,23254577766196
P3,862749157824264,42538305092745-0,562633893103186
Y3,645574364608822,845321019463370,800253345145454
N3,211678170230583,94539874314756-0,733720572916979
M2,618339104006632,81929022200657-0,200951117999943
Q1,785911295356214,44013137809844-2,65422008274223
H1,512969279665822,26637543636613-0,75340615670031
C1,178063683447711,157596199651050,0204674837966596
W1,038721192602461,53117132689225-0,492450134289792
U00,000221224907564859-0,000221224907564859

Анализ полученных соотношений

Три наиболее распространённых остатка у A.fulgidus — это лейцин (L), глутаминовая кислота (E) и валин (V). Так же, как и у указанной археи, у E.coli первое место занимает лейцин, но два следующих остатка — аланин (A) и глицин (G) — отличаются.

Рассматривая только канонические аминокислоты, можно обнаружить, что тройки самых редких в протеоме остатков совпадают у обоих организмов: это гистидин (H), цистеин (C) и триптофан (W). Но в протеоме E. coli встречается, хоть и крайне редко (всего 3 раза), остаток неканонической аминокислоты селеленоцистеина (U). В протеоме же археи A. fulgidus он отсутствует.

Наибольшее расхождение в процентном содержании в протеомах наблюдается в остатках глутаминовой кислоты (E) — ее намного больше в протеоме A. fulgidus, — и глутамина (Q) — его остатки чаще встречаются у E. coli.

Программа compseq

На вход compseq принимает следующие обязательные параметры: файл с последовательностью, длину "слова" (в натуральных числах) и файл, в который будет записан вывод программы. В одну строку подсчёт аминокислот в последовательности белка, записанной в файле 1.fasta делается следующим образом:

	compseq 1.fasta -word 1 -outfile smth.txt
В принципе можно ввести лишь
	compseq 1.fasta
В этом случае в командной строке программа сама предложит ввести остальные параметры.
Конечно, не запрещено и просто вводить "compseq" без указания на рассматриваемую fasta-последовательность, но в этом случае теряется удобство использования Tab в процессе работы.
Особенность программы compseq и её отличие от использованной в практикуме wordcount заключается в формате вывода.
  • перечисляются названия всех последовательностей из входного файла (input sequences)
  • указывается общее количество "слов" (total count) и установленная нами длина "слова" (word size)
  • "слова" в таблице упорядочены по алфавиту
  • в таблице указаны не только количества конкретных "слов" в последовательности, но и наблюдаемая частота (obs frequency)
  • также, исходя из, конечно же, неверного предположения о том, что ожидаемые частоты появления в последовательности "слов" заданной длины равны, рассчитана и указана в таблице эта самая "ожидаемая частота" (exp frequency)
  • последний столбец таблицы содержит отношение наблюдаемых частот к ожидаемым

wordcount, в отличие от compseq, перечисляет в таблице "слова" по убыванию их количества, что оказывается удобным при выполнении практикума. Но вывод этой программы по сути и содержит только это, а вывод compseq гораздо более подробен и информативен: не пришлось бы, как минимум, подсчитывать частоты средствами Excel. Думаю, что для выполнения заданий я бы выбрала программу compseq.


[1] UniProt Proteomes