Здесь продолжается исследование протеома бактерии
Cronobacter dublinensis subsp. dublinensis LMG 23823, на который ранее был написан
мини-обзор. Протеом будет сравниваться с референсным протеомом наиболее хорошо изученной бактерии
Escherichia coli strain K-12.
Таблица 1. Общее сравнение протеомов бактерий
|
Cronobacter dublinensis subsp. dublinensis LMG 23823 |
Escherichia coli strain K-12. |
Proteome ID |
UP000055559 |
UP000000625 |
Общее число белков |
4100 |
4391 |
Число белков в Swiss-Prot |
0 |
4389 |
Single/Missing по BUSCO |
99.7%/0.3% |
100%/0% |
Число неохарактеризованных белков |
617 |
525 |
Доказательства существования белков |
Доказательство на уровне белка |
0 |
3032 |
Доказательство на уровне транскрипта |
7 |
161 |
Выведенные из гомологии |
1732 |
660 |
Предсказанные |
2361 |
439 |
Никак не подтверждённые |
0 |
99 |
Из
таблицы 1 видно, что, хотя геном
C. dublinensis изучен хорошо, о белках этой бактерии известно мало: ни одного выделенного белка и всего 7 найденных транскриптов. Далее сравним некоторые функциональные группы белков.
Трансмембранные белки
Трансмембранные белки искались с помощью следующего поискового запроса:
annotation:(type:transmem) AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559
Поиск для
E.coli проходил по аналогичному запросу с заменой организма и протеома на соответствующие для неё.
В данном случае поиск происходит по полю FT, и выдаются все записи, для которых явно указаны трансмембранные участки. Догадаться до этого можно, исходя из двух вещей:
- В статье из Help про поля, покоторым проходит поиск, написано, что annotation ищет по различным полям, в том числе и по FT.
- Поиск по слову transmem будет искать именно по этому слову с пробелами до и после, а такое слово есть только в поле FT с указанием координат трансмембранного участка. Чтобы поиск происходил по слову со всевозможными суффиксами, необходимо ставить * после слова.
Итак, было получено, что у
C.dublinensis 866 трансмебранных белков, а у
E.coli их
946. Расхождение маленькое, но большого расхождения и не ожидалось, ведь бактерии живут в сходных условиях. Можно предполагать, что у
C.dublinensis их больше, но они недостаточно хорошо изучены.
Ферменты
Следующий запрос показывает все ферменты, которым присвоен свой код фермента:
ec:* AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559
Таким образом удалось найти
957 ферментов для
C.dublinensis и
1676 для
E.coli. Разница значительная: у
E.coli на 75.13% больше ферментов. Это может быть объяснено тем, что не всем ферментам
C.dublinensis присвоен свой код фермента, ведь 617 белков
C.dublinensis никак не охарактеризованы, однако такое объяснение вряд ли подходит: у
E.coli 525 неохарактеризованных белков, что не сильно меньше. По-видимому, у
C.dublinensis действительно меньше ферментов, чем у
E.coli.
Запрос выше ищет EC фермента в любом поле, но встречается оно в разделе DE в качестве одного из имён фермента, и в разделе CC в разделе Catalytic activity. Ниже пример того, как это выглядит в действительности:
DE EC=4.2.1.3 {ECO:0000269|PubMed:10585860};
.
.
.
.
CC -!- CATALYTIC ACTIVITY:
CC Reaction=citrate = isocitrate; Xref=Rhea:RHEA:10336, ChEBI:CHEBI:16087,
CC ChEBI:CHEBI:16947; EC=4.2.1.3;
CC Evidence={ECO:0000269|PubMed:10585860};
Белки адгезии
Известно, что
C.dublinensis склонна к адгезии и образованию биоплёнок, поэтому было решено в качестве третьей функциональной группы рассмотреть белки, связанные с адгезией. Для этого был использован запрос, который ищет белки по любым полям:
adhesion AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559
Было найдено
32 для
C.dublinensis и
86 для
E.coli. То есть у
E.coli более чем в два раза больше белков, связанных с адгезией, чем у
C.dublinensis, хотя должно быть как минимум не меньше. Остаётся только предполагать, что белки адгезии у
C.dublinensis плохо изучены.
Работа с EMBOSS
Получение зрелых белков одного из коронавирусов
Необходимо получить один из зрелых белков вируса MERS.
Для начала нужно было скачать запись белка. Делалось это с помощью следующей команды:
$ entret sw:K9N7C7 mers.txt
Получили файл
merx.txt, содержащий копию записи полного полипротеина из Swiss-Prot.
Дальшее нужно получить координаты цепей, на который распадается полный полипротеин. Для этого используется grep с незамысловатым аргументом:
$ grep "FT * CHAIN" mers.txt
FT CHAIN 1..193
FT CHAIN 194..853
FT CHAIN 854..2740
FT CHAIN 2741..3247
FT CHAIN 3248..3553
FT CHAIN 3554..3845
FT CHAIN 3846..3928
FT CHAIN 3929..4127
FT CHAIN 4128..4237
FT CHAIN 4238..4377
FT CHAIN 4378..5310
FT CHAIN 5311..5908
FT CHAIN 5909..6432
FT CHAIN 6433..6775
FT CHAIN 6776..7078
Выбираем любой из них. Допустим, это будет цепь 4378-5310.
С помощью следующей команды получаем файл
prefinal.fasta, который содержит нужную последовательность, но неправильное описание:
$ seqret mers.txt[4378:5310] fasta::prefinal.fasta
С помощью ещё одной команды заменяем описание последовательности и получаем итоговый файл
final.fasta.
$ descseq prefinal.fasta final.fasta -name 'PRO_0000422449' -description 'RNA-directed RNA polymerase'
Описание утилиты из пакета EMBOSS
Для описания была выбрана утилита shuffleseq, которая перемешивает буквы в последовательности в случайном порядке. Может быть использоваться, например, для вычисления случайности появления чего-то в этой последовательности, или для измерения достоверности филогенетического дерева.
Итак, синтаксис shuffleseq:
- Опция -sequence принимает имена последовательностей, которые нужно перемешать.
- Опция -outseq принимает файл, в который необходимо вписать полученный набор последовательности.
- Опция -shuffle принимает натуральное число, сколько последовательностей надо поместить в файл. По умолчанию 1.
По умолчанию первый аргумент будет именем исходной последовательности, а второй будет выходным файлом.
Рассмотрим на примере, как ей пользоваться. Допустим, мы хотим получить .fasta файл, содержащий перемешанные последовательности аминокислот белка эндотиапепсина из
Cryphonectria parasitica из прошлого практикума.
Предположим, мы хотим, чтобы в итоговом файле новые последовательности было 2 новых последовательности. Итак, применим нашу утилиту:
$ shuffleseq endothiapepsin.fasta outseq.fasta -shuffle 2
Shuffle a set of sequences maintaining composition
Мы получили файл
outseq.fasta с обеими последовательностями.