UniProt Proteomes. EMBOSS

Сравнение протеомов

Для знакомства с базой UniProt Proteomes сравнивался протеом рассматривашейся в первом семестре бактерии Lactobacillus crispatus strain ST1 с протеомом наиболее хорошо изученной бактерии Escherichia coli strain K-12.

Общая информация о протеомах приведена в таблице ниже:

	L. crispatus	E. coli
id	UP000002371	UP000000625
белков всего	2 003	4 391
белков в Swiss-Prot	1 (0,05%)	4389 (99,95%)

Можно видеть, что протеом L. crispatus очень плохо аннотирован. Тем не менее, была произведена попытка, опираясь на имеющуюся аннотацию, сравнить эти протеомы по отдельным группам белков:

тип	L. crispatus	E. coli	запрос
трансмембранные	488 (24,4%)	946 (21,5%)	annotation:(type:transmem) AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371
ферменты	328 (16,4%)	1676 (38,2%)	ec:* AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371
участвуют в адгезии	3 (0,1%)	84 (1,9%)	adhesion AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371

Основной вывод, который можно сделать из этого сравнения - аннотированность протеома явно недостаточно, чтобы делать какие-либо выводы о свойствах собственно протеома. Выводы можно сделать о классах белков: так, вероятно, трансмембранную локализацию белка автоматически предсказать проще, чем ферментативную активность (т.к. маловероятно, что относительное число всех ферментов в этих бактериях действительно отличается в два раза).

В качестве третьей группы были выбраны белки, участвующие в клеточной адгезии, поскольку было показано, что L. crispatus способна прочно прикрепляться к эпителию и подавлять адгезию патогенной птичьей E. Coli. Однако из-за же отмеченной плохой аннотированности протеома L. crispatus, никакой более точный поиск, например, по полю "функция", для её протеома не выдвёт вовсе ни одного белка (у выдаваемых упоминание адгезии находится в разделах схожих доменов или в информации, перенесённой с Gene Ontology, для которой нет отдельного поля в Function), поэтому пришлось производить поиск по всем полям, что для E. coli может засорить выдачу лишними белками.

Получение зрелых белков одного из коронавирусов

Данный раздел практикума был направлен на знакомство с утилитами EMBOSS. Для получения последовательности одного из белков была выполнена следующая последовательность команд:

entret 'sw:P0C6X7' protein.entret

grep "FT CHAIN" protein.entret

seqret 'sw:P0C6X7[5302:5902]' 'fasta::mychain.fasta'

nano mychain.fasta (и ручное удаление лишних названий белков)

Итоговый файл:

>R1AB_CVHSA P0C6X7 Helicase (Hel) (3.6.4.12) (3.6.4.13) (nsp13)
AVGACVLCNSQTSLRCGACIRRPFLCCKCCYDHVISTSHKLVLSVNPYVCNAPGCDVTDV
TQLYLGGMSYYCKSHKPPISFPLCANGQVFGLYKNTCVGSDNVTDFNAIATCDWTNAGDY
ILANTCTERLKLFAAETLKATEETFKLSYGIATVREVLSDRELHLSWEVGKPRPPLNRNY
VFTGYRVTKNSKVQIGEYTFEKGDYGDAVVYRGTTTYKLNVGDYFVLTSHTVMPLSAPTL
VPQEHYVRITGLYPTLNISDEFSSNVANYQKVGMQKYSTLQGPPGTGKSHFAIGLALYYP
SARIVYTACSHAAVDALCEKALKYLPIDKCSRIIPARARVECFDKFKVNSTLEQYVFCTV
NALPETTADIVVFDEISMATNYDLSVVNARLRAKHYVYIGDPAQLPAPRTLLTKGTLEPE
YFNSVCRLMKTIGPDMFLGTCRRCPAEIVDTVSALVYDNKLKAHKDKSAQCFKMFYKGVI
THDVSSAINRPQIGVVREFLTRNPAWRKAVFISPYNSQNAVASKILGLPTQTVDSSQGSE
YDYVIFTQTTETAHSCNVNRFNVAITRAKIGILCIMSDRDLYDKLQFTSLEIPRRNVATL
Q

Описание утилиты из пакета EMBOSS

Для описания выбрана утилита transeq. Она нужна для трансляции выбранной последовательности нуклеотидов.

transeq [sequence] [outseq]

Имеет два обязательных аргумента: последовательность, трансляция которой будет осуществляться, и последовательность, в которую будет записываться белок. Дополнительные параметры:

frame

Позволяет настроить рамку считывания, возможные значения: 1, 2, 3, F (все три прямые), -1, -2, -3, R (все три по комплементарной цепи), 6 (все шесть рамок считывания), значение по умолчанию 1.

table

Указывает код, который будет использоваться. Доступно 23 различных варианта, кодирующихся числами от 1 до 23, перечисление всех тут не представляется осмысленным.

regions

Позволяет задать часть последовательности, которая будет транслироваться.

trim

Убирает с конца последовательности все символы 'X' или '*'.

clean

Заменяет в белковой последовательности все '*' на 'X'.

alternative

Переопределяет обозначения рамок считывания: по умолчанию рамка -1 - развёрнутые комплементарные кодоны к рамке 1, -2 - к рамке 2, -3 - к рамке 3; при использовании этого параметра - рамка -1 начинется с последнего нуклеотида, -2 с предпоследнего, -3 с третьего с конца.

[no]methionine

Задаёт, кодирует ли старт-кодом метионин.

Пример использования, трансляция первых 30 нуклеотидов последовательности транстиреина в всех рамках считывания:

transeq "embl:S72385" transproteins.txt -frame=6 -reg=1-30

Содержимое файла transproteins.txt после выполнения команды:

>S72385_1 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
RSRFLIPQRIБ
>S72385_2 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
APDF*YHKEX
>S72385_3 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
LQISNTTKNX
>S72385_4 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
YSLWY*KSGA
>S72385_5 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
FFVVLEIWSX
>S72385_6 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
ILCGIRNLER