Частоты остатков в протеомах
Таблица 1. Общая информация о протеомах[1]
В ходе работы были использованы протеомы организмов Escherichia coli (штамм K12) и Archaeoglobus fulgidus. Рассматривались файлы формата FASTA, взятые из базы данных UniProt.
Организм | Archaeoglobus fulgidus (strain ATCC 49558 / VC-16 / DSM 4304 / JCM 9628 / NBRC 100126) | Escherichia coli (strain K12) |
Идентификатор протеома | UP000002199 | UP000000625 |
Число последовательностей | 2400 | 4306 |
Число остатков | 661679 | 1356086 |
Таблица 2. Частоты встречаемости остатков в протеомах
Данные о количестве остатков были получены при помощи wordcount. Последующая обработка информации была осуществлена при помощи средств MS Excel.
Остаток | Частота остатка в протеоме A. fulgidus, % | Частота остатка в протеоме E. coli, % | Разность, % |
L | 9,50052820174133 | 10,6726269572874 | -1,17209875554604 |
E | 8,91383888562279 | 5,76283510042873 | 3,15100378519405 |
V | 8,61565804566867 | 7,07344519447882 | 1,54221285118985 |
A | 7,86136480075686 | 9,51539946581559 | -1,65403466505873 |
G | 7,25306379679573 | 7,37460603531045 | -0,121542238514717 |
I | 7,227824972532 | 6,01031203035796 | 1,21751294217404 |
K | 6,85982175647104 | 4,40606274233345 | 2,45375901413759 |
R | 5,76351977318307 | 5,51100741398407 | 0,252512359199001 |
S | 5,50735326344043 | 5,80228687561113 | -0,294933612170704 |
D | 4,89346042416338 | 5,15100074774019 | -0,257540323576809 |
F | 4,58303799878793 | 3,89046122443562 | 0,692576774352313 |
T | 4,1665218330943 | 5,39906761075625 | -1,23254577766196 |
P | 3,86274915782426 | 4,42538305092745 | -0,562633893103186 |
Y | 3,64557436460882 | 2,84532101946337 | 0,800253345145454 |
N | 3,21167817023058 | 3,94539874314756 | -0,733720572916979 |
M | 2,61833910400663 | 2,81929022200657 | -0,200951117999943 |
Q | 1,78591129535621 | 4,44013137809844 | -2,65422008274223 |
H | 1,51296927966582 | 2,26637543636613 | -0,75340615670031 |
C | 1,17806368344771 | 1,15759619965105 | 0,0204674837966596 |
W | 1,03872119260246 | 1,53117132689225 | -0,492450134289792 |
U | 0 | 0,000221224907564859 | -0,000221224907564859 |
Анализ полученных соотношений
Три наиболее распространённых остатка у A.fulgidus — это лейцин (L), глутаминовая кислота (E) и валин (V). Так же, как и у указанной археи, у E.coli первое место занимает лейцин, но два следующих остатка — аланин (A) и глицин (G) — отличаются.
Рассматривая только канонические аминокислоты, можно обнаружить, что тройки самых редких в протеоме остатков совпадают у обоих организмов: это гистидин (H), цистеин (C) и триптофан (W). Но в протеоме E. coli встречается, хоть и крайне редко (всего 3 раза), остаток неканонической аминокислоты селеленоцистеина (U). В протеоме же археи A. fulgidus он отсутствует.
Наибольшее расхождение в процентном содержании в протеомах наблюдается в остатках глутаминовой кислоты (E) — ее намного больше в протеоме A. fulgidus, — и глутамина (Q) — его остатки чаще встречаются у E. coli.
Программа compseq
На вход compseq принимает следующие обязательные параметры: файл с последовательностью, длину "слова" (в натуральных числах) и файл, в который будет записан вывод программы. В одну строку подсчёт аминокислот в последовательности белка, записанной в файле 1.fasta делается следующим образом:
compseq 1.fasta -word 1 -outfile smth.txtВ принципе можно ввести лишь
compseq 1.fastaВ этом случае в командной строке программа сама предложит ввести остальные параметры.
Конечно, не запрещено и просто вводить "compseq" без указания на рассматриваемую fasta-последовательность, но в этом случае теряется удобство использования Tab в процессе работы.
Особенность программы compseq и её отличие от использованной в практикуме wordcount заключается в формате вывода.
- перечисляются названия всех последовательностей из входного файла (input sequences)
- указывается общее количество "слов" (total count) и установленная нами длина "слова" (word size)
- "слова" в таблице упорядочены по алфавиту
- в таблице указаны не только количества конкретных "слов" в последовательности, но и наблюдаемая частота (obs frequency)
- также, исходя из, конечно же, неверного предположения о том, что ожидаемые частоты появления в последовательности "слов" заданной длины равны, рассчитана и указана в таблице эта самая "ожидаемая частота" (exp frequency)
- последний столбец таблицы содержит отношение наблюдаемых частот к ожидаемым
wordcount, в отличие от compseq, перечисляет в таблице "слова" по убыванию их количества, что оказывается удобным при выполнении практикума. Но вывод этой программы по сути и содержит только это, а вывод compseq гораздо более подробен и информативен: не пришлось бы, как минимум, подсчитывать частоты средствами Excel. Думаю, что для выполнения заданий я бы выбрала программу compseq.
[1] UniProt Proteomes