Учебный сайт
Владимира Ноздрина

я пошёл на южный рынок и набрал
целый чемодан экзистенциального
Святослав Свидригайлов, "Чемодан экзистенциального"

Работа с UniProt Proteomes

 Здесь продолжается исследование протеома бактерии Cronobacter dublinensis subsp. dublinensis LMG 23823, на который ранее был написан мини-обзор. Протеом будет сравниваться с референсным протеомом наиболее хорошо изученной бактерии Escherichia coli strain K-12.
Таблица 1. Общее сравнение протеомов бактерий
Cronobacter dublinensis subsp. dublinensis LMG 23823 Escherichia coli strain K-12.
Proteome ID UP000055559 UP000000625
Общее число белков 4100 4391
Число белков в Swiss-Prot 0 4389
Single/Missing по BUSCO 99.7%/0.3% 100%/0%
Число неохарактеризованных белков 617 525
Доказательства существования белков
Доказательство на уровне белка 0 3032
Доказательство на уровне транскрипта 7 161
Выведенные из гомологии 1732 660
Предсказанные 2361 439
Никак не подтверждённые 0 99
 Из таблицы 1 видно, что, хотя геном C. dublinensis изучен хорошо, о белках этой бактерии известно мало: ни одного выделенного белка и всего 7 найденных транскриптов. Далее сравним некоторые функциональные группы белков.
Трансмембранные белки
 Трансмембранные белки искались с помощью следующего поискового запроса:     annotation:(type:transmem) AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559  Поиск для E.coli проходил по аналогичному запросу с заменой организма и протеома на соответствующие для неё.
 В данном случае поиск происходит по полю FT, и выдаются все записи, для которых явно указаны трансмембранные участки. Догадаться до этого можно, исходя из двух вещей:
  1. В статье из Help про поля, покоторым проходит поиск, написано, что annotation ищет по различным полям, в том числе и по FT.
  2. Поиск по слову transmem будет искать именно по этому слову с пробелами до и после, а такое слово есть только в поле FT с указанием координат трансмембранного участка. Чтобы поиск происходил по слову со всевозможными суффиксами, необходимо ставить * после слова.
 Итак, было получено, что у C.dublinensis 866 трансмебранных белков, а у E.coli их 946. Расхождение маленькое, но большого расхождения и не ожидалось, ведь бактерии живут в сходных условиях. Можно предполагать, что у C.dublinensis их больше, но они недостаточно хорошо изучены.
Ферменты
 Следующий запрос показывает все ферменты, которым присвоен свой код фермента:     ec:* AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559  Таким образом удалось найти 957 ферментов для C.dublinensis и 1676 для E.coli. Разница значительная: у E.coli на 75.13% больше ферментов. Это может быть объяснено тем, что не всем ферментам C.dublinensis присвоен свой код фермента, ведь 617 белков C.dublinensis никак не охарактеризованы, однако такое объяснение вряд ли подходит: у E.coli 525 неохарактеризованных белков, что не сильно меньше. По-видимому, у C.dublinensis действительно меньше ферментов, чем у E.coli.
 Запрос выше ищет EC фермента в любом поле, но встречается оно в разделе DE в качестве одного из имён фермента, и в разделе CC в разделе Catalytic activity. Ниже пример того, как это выглядит в действительности:
  DE       EC=4.2.1.3 {ECO:0000269|PubMed:10585860};
  .
  .
  .
  .
  CC   -!- CATALYTIC ACTIVITY:
  CC       Reaction=citrate = isocitrate; Xref=Rhea:RHEA:10336, ChEBI:CHEBI:16087,
  CC         ChEBI:CHEBI:16947; EC=4.2.1.3;
  CC         Evidence={ECO:0000269|PubMed:10585860};
Белки адгезии
 Известно, что C.dublinensis склонна к адгезии и образованию биоплёнок, поэтому было решено в качестве третьей функциональной группы рассмотреть белки, связанные с адгезией. Для этого был использован запрос, который ищет белки по любым полям:     adhesion AND organism:"Cronobacter dublinensis subsp. dublinensis LMG 23823 [1159554]" AND proteome:up000055559  Было найдено 32 для C.dublinensis и 86 для E.coli. То есть у E.coli более чем в два раза больше белков, связанных с адгезией, чем у C.dublinensis, хотя должно быть как минимум не меньше. Остаётся только предполагать, что белки адгезии у C.dublinensis плохо изучены.

Работа с EMBOSS

Получение зрелых белков одного из коронавирусов

  Необходимо получить один из зрелых белков вируса MERS. Для начала нужно было скачать запись белка. Делалось это с помощью следующей команды:
$ entret sw:K9N7C7 mers.txt
 Получили файл merx.txt, содержащий копию записи полного полипротеина из Swiss-Prot.
 Дальшее нужно получить координаты цепей, на который распадается полный полипротеин. Для этого используется grep с незамысловатым аргументом:
$ grep "FT * CHAIN" mers.txt
FT   CHAIN           1..193
FT   CHAIN           194..853
FT   CHAIN           854..2740
FT   CHAIN           2741..3247
FT   CHAIN           3248..3553
FT   CHAIN           3554..3845
FT   CHAIN           3846..3928
FT   CHAIN           3929..4127
FT   CHAIN           4128..4237
FT   CHAIN           4238..4377
FT   CHAIN           4378..5310
FT   CHAIN           5311..5908
FT   CHAIN           5909..6432
FT   CHAIN           6433..6775
FT   CHAIN           6776..7078
 Выбираем любой из них. Допустим, это будет цепь 4378-5310.
 С помощью следующей команды получаем файл prefinal.fasta, который содержит нужную последовательность, но неправильное описание:
$ seqret mers.txt[4378:5310] fasta::prefinal.fasta
 С помощью ещё одной команды заменяем описание последовательности и получаем итоговый файл final.fasta.
$ descseq prefinal.fasta final.fasta -name 'PRO_0000422449' -description 'RNA-directed RNA polymerase'

Описание утилиты из пакета EMBOSS

 Для описания была выбрана утилита shuffleseq, которая перемешивает буквы в последовательности в случайном порядке. Может быть использоваться, например, для вычисления случайности появления чего-то в этой последовательности, или для измерения достоверности филогенетического дерева.
 Итак, синтаксис shuffleseq:
  1. Опция -sequence принимает имена последовательностей, которые нужно перемешать.
  2. Опция -outseq принимает файл, в который необходимо вписать полученный набор последовательности.
  3. Опция -shuffle принимает натуральное число,  сколько последовательностей надо поместить в файл. По умолчанию 1.
 По умолчанию первый аргумент будет именем исходной последовательности, а второй будет выходным файлом.  Рассмотрим на примере, как ей пользоваться. Допустим, мы хотим получить .fasta файл, содержащий перемешанные последовательности аминокислот белка эндотиапепсина из Cryphonectria parasitica из прошлого практикума.
 Предположим, мы хотим, чтобы в итоговом файле новые последовательности было 2 новых последовательности. Итак, применим нашу утилиту:
$ shuffleseq endothiapepsin.fasta outseq.fasta -shuffle 2
Shuffle a set of sequences maintaining composition
 Мы получили файл outseq.fasta с обеими последовательностями.