UniProt Proteomes. EMBOSS


Сравнение протеомов

Для знакомства с базой UniProt Proteomes сравнивался протеом рассматривашейся в первом семестре бактерии Lactobacillus crispatus strain ST1 с протеомом наиболее хорошо изученной бактерии Escherichia coli strain K-12.

Общая информация о протеомах приведена в таблице ниже:

 L. crispatus E. coli
id UP000002371 UP000000625
белков всего 2 003 4 391
белков в Swiss-Prot 1 (0,05%) 4389 (99,95%)

Можно видеть, что протеом L. crispatus очень плохо аннотирован. Тем не менее, была произведена попытка, опираясь на имеющуюся аннотацию, сравнить эти протеомы по отдельным группам белков:

тип L. crispatus E. coli запрос
трансмембранные 488 (24,4%) 946 (21,5%) annotation:(type:transmem) AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371
ферменты 328 (16,4%) 1676 (38,2%) ec:* AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371
участвуют в адгезии 3 (0,1%) 84 (1,9%) adhesion AND organism:"Lactobacillus crispatus (strain ST1) [748671]" AND proteome:up000002371

Основной вывод, который можно сделать из этого сравнения - аннотированность протеома явно недостаточно, чтобы делать какие-либо выводы о свойствах собственно протеома. Выводы можно сделать о классах белков: так, вероятно, трансмембранную локализацию белка автоматически предсказать проще, чем ферментативную активность (т.к. маловероятно, что относительное число всех ферментов в этих бактериях действительно отличается в два раза).

В качестве третьей группы были выбраны белки, участвующие в клеточной адгезии, поскольку было показано, что L. crispatus способна прочно прикрепляться к эпителию и подавлять адгезию патогенной птичьей E. Coli. Однако из-за же отмеченной плохой аннотированности протеома L. crispatus, никакой более точный поиск, например, по полю "функция", для её протеома не выдвёт вовсе ни одного белка (у выдаваемых упоминание адгезии находится в разделах схожих доменов или в информации, перенесённой с Gene Ontology, для которой нет отдельного поля в Function), поэтому пришлось производить поиск по всем полям, что для E. coli может засорить выдачу лишними белками.


Получение зрелых белков одного из коронавирусов

Данный раздел практикума был направлен на знакомство с утилитами EMBOSS. Для получения последовательности одного из белков была выполнена следующая последовательность команд:


entret 'sw:P0C6X7' protein.entret

grep "FT CHAIN" protein.entret

seqret 'sw:P0C6X7[5302:5902]' 'fasta::mychain.fasta'

nano mychain.fasta (и ручное удаление лишних названий белков)


Итоговый файл:

>R1AB_CVHSA P0C6X7 Helicase (Hel) (3.6.4.12) (3.6.4.13) (nsp13)
AVGACVLCNSQTSLRCGACIRRPFLCCKCCYDHVISTSHKLVLSVNPYVCNAPGCDVTDV
TQLYLGGMSYYCKSHKPPISFPLCANGQVFGLYKNTCVGSDNVTDFNAIATCDWTNAGDY
ILANTCTERLKLFAAETLKATEETFKLSYGIATVREVLSDRELHLSWEVGKPRPPLNRNY
VFTGYRVTKNSKVQIGEYTFEKGDYGDAVVYRGTTTYKLNVGDYFVLTSHTVMPLSAPTL
VPQEHYVRITGLYPTLNISDEFSSNVANYQKVGMQKYSTLQGPPGTGKSHFAIGLALYYP
SARIVYTACSHAAVDALCEKALKYLPIDKCSRIIPARARVECFDKFKVNSTLEQYVFCTV
NALPETTADIVVFDEISMATNYDLSVVNARLRAKHYVYIGDPAQLPAPRTLLTKGTLEPE
YFNSVCRLMKTIGPDMFLGTCRRCPAEIVDTVSALVYDNKLKAHKDKSAQCFKMFYKGVI
THDVSSAINRPQIGVVREFLTRNPAWRKAVFISPYNSQNAVASKILGLPTQTVDSSQGSE
YDYVIFTQTTETAHSCNVNRFNVAITRAKIGILCIMSDRDLYDKLQFTSLEIPRRNVATL
Q

Описание утилиты из пакета EMBOSS

Для описания выбрана утилита transeq. Она нужна для трансляции выбранной последовательности нуклеотидов.

transeq [sequence] [outseq]

Имеет два обязательных аргумента: последовательность, трансляция которой будет осуществляться, и последовательность, в которую будет записываться белок. Дополнительные параметры:

  • frame
  • Позволяет настроить рамку считывания, возможные значения: 1, 2, 3, F (все три прямые), -1, -2, -3, R (все три по комплементарной цепи), 6 (все шесть рамок считывания), значение по умолчанию 1.

  • table
  • Указывает код, который будет использоваться. Доступно 23 различных варианта, кодирующихся числами от 1 до 23, перечисление всех тут не представляется осмысленным.

  • regions
  • Позволяет задать часть последовательности, которая будет транслироваться.

  • trim
  • Убирает с конца последовательности все символы 'X' или '*'.

  • clean
  • Заменяет в белковой последовательности все '*' на 'X'.

  • alternative
  • Переопределяет обозначения рамок считывания: по умолчанию рамка -1 - развёрнутые комплементарные кодоны к рамке 1, -2 - к рамке 2, -3 - к рамке 3; при использовании этого параметра - рамка -1 начинется с последнего нуклеотида, -2 с предпоследнего, -3 с третьего с конца.

  • [no]methionine
  • Задаёт, кодирует ли старт-кодом метионин.

Пример использования, трансляция первых 30 нуклеотидов последовательности транстиреина в всех рамках считывания:

transeq "embl:S72385" transproteins.txt -frame=6 -reg=1-30

Содержимое файла transproteins.txt после выполнения команды:

>S72385_1 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
RSRFLIPQRIБ
>S72385_2 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
APDF*YHKEX
>S72385_3 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
LQISNTTKNX
>S72385_4 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
YSLWY*KSGA
>S72385_5 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
FFVVLEIWSX
>S72385_6 transthyretin {A to G substitution at base 202, exon 2, glu42gly} [human, Italian amyloidosis family, individual IV-9, Genomic Mutant, 283 nt].
ILCGIRNLER