Для знакомства с базой UniProt Proteomes сравнивался протеом рассматривашейся в первом семестре бактерии Lactobacillus crispatus strain ST1 с протеомом наиболее хорошо изученной бактерии Escherichia coli strain K-12.
Общая информация о протеомах приведена в таблице ниже:
L. crispatus | E. coli | |
---|---|---|
id | UP000002371 | UP000000625 |
белков всего | 2 003 | 4 391 |
белков в Swiss-Prot | 1 (0,05%) | 4389 (99,95%) |
Можно видеть, что протеом L. crispatus очень плохо аннотирован. Тем не менее, была произведена попытка, опираясь на имеющуюся аннотацию, сравнить эти протеомы по отдельным группам белков:
тип | L. crispatus | E. coli | запрос |
---|---|---|---|
трансмембранные | 488 (24,4%) | 946 (21,5%) | annotation:(type:transmem) AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371 |
ферменты | 328 (16,4%) | 1676 (38,2%) | ec:* AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371 |
участвуют в адгезии | 3 (0,1%) | 84 (1,9%) | adhesion AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371 |
Основной вывод, который можно сделать из этого сравнения - аннотированность протеома явно недостаточно, чтобы делать какие-либо выводы о свойствах собственно протеома. Выводы можно сделать о классах белков: так, вероятно, трансмембранную локализацию белка автоматически предсказать проще, чем ферментативную активность (т.к. маловероятно, что относительное число всех ферментов в этих бактериях действительно отличается в два раза).
В качестве третьей группы были выбраны белки, участвующие в клеточной адгезии, поскольку было показано, что L. crispatus способна прочно прикрепляться к эпителию и подавлять адгезию патогенной птичьей E. Coli. Однако из-за же отмеченной плохой аннотированности протеома L. crispatus, никакой более точный поиск, например, по полю "функция", для её протеома не выдвёт вовсе ни одного белка (у выдаваемых упоминание адгезии находится в разделах схожих доменов или в информации, перенесённой с Gene Ontology, для которой нет отдельного поля в Function), поэтому пришлось производить поиск по всем полям, что для E. coli может засорить выдачу лишними белками.
Данный раздел практикума был направлен на знакомство с утилитами EMBOSS. Для получения последовательности одного из белков была выполнена следующая последовательность команд:
entret 'sw:P0C6X7' protein.entret
grep "FT CHAIN" protein.entret
seqret 'sw:P0C6X7[5302:5902]' 'fasta::mychain.fasta'
nano mychain.fasta (и ручное удаление лишних названий белков)
Итоговый файл:
>R1AB_CVHSA P0C6X7 Helicase (Hel) (3.6.4.12) (3.6.4.13) (nsp13) AVGACVLCNSQTSLRCGACIRRPFLCCKCCYDHVISTSHKLVLSVNPYVCNAPGCDVTDV TQLYLGGMSYYCKSHKPPISFPLCANGQVFGLYKNTCVGSDNVTDFNAIATCDWTNAGDY ILANTCTERLKLFAAETLKATEETFKLSYGIATVREVLSDRELHLSWEVGKPRPPLNRNY VFTGYRVTKNSKVQIGEYTFEKGDYGDAVVYRGTTTYKLNVGDYFVLTSHTVMPLSAPTL VPQEHYVRITGLYPTLNISDEFSSNVANYQKVGMQKYSTLQGPPGTGKSHFAIGLALYYP SARIVYTACSHAAVDALCEKALKYLPIDKCSRIIPARARVECFDKFKVNSTLEQYVFCTV NALPETTADIVVFDEISMATNYDLSVVNARLRAKHYVYIGDPAQLPAPRTLLTKGTLEPE YFNSVCRLMKTIGPDMFLGTCRRCPAEIVDTVSALVYDNKLKAHKDKSAQCFKMFYKGVI THDVSSAINRPQIGVVREFLTRNPAWRKAVFISPYNSQNAVASKILGLPTQTVDSSQGSE YDYVIFTQTTETAHSCNVNRFNVAITRAKIGILCIMSDRDLYDKLQFTSLEIPRRNVATL Q
Для описания выбрана утилита transeq. Она нужна для трансляции выбранной последовательности нуклеотидов.
transeq [sequence] [outseq]
Имеет два обязательных аргумента: последовательность, трансляция которой будет осуществляться, и последовательность, в которую будет записываться белок. Дополнительные параметры:
Позволяет настроить рамку считывания, возможные значения: 1, 2, 3, F (все три прямые), -1, -2, -3, R (все три по комплементарной цепи), 6 (все шесть рамок считывания), значение по умолчанию 1.
Указывает код, который будет использоваться. Доступно 23 различных варианта, кодирующихся числами от 1 до 23, перечисление всех тут не представляется осмысленным.
Позволяет задать часть последовательности, которая будет транслироваться.
Убирает с конца последовательности все символы 'X' или '*'.
Заменяет в белковой последовательности все '*' на 'X'.
Переопределяет обозначения рамок считывания: по умолчанию рамка -1 - развёрнутые комплементарные кодоны к рамке 1, -2 - к рамке 2, -3 - к рамке 3; при использовании этого параметра - рамка -1 начинется с последнего нуклеотида, -2 с предпоследнего, -3 с третьего с конца.
Задаёт, кодирует ли старт-кодом метионин.
Пример использования, трансляция первых 30 нуклеотидов последовательности транстиреина в всех рамках считывания:
transeq "embl:S72385" transproteins.txt -frame=6 -reg=1-30
Содержимое файла transproteins.txt после выполнения команды:
>S72385_1 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. RSRFLIPQRIБ >S72385_2 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. APDF*YHKEX >S72385_3 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. LQISNTTKNX >S72385_4 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. YSLWY*KSGA >S72385_5 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. FFVVLEIWSX >S72385_6 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt]. ILCGIRNLER