Задачей данной части практикума было сопоставление долей белков определённой функциональной группы в протеомах Neisseria lactamica (strain 020-06), уже обозревался, и Escherichia coli (strain K12).
Из раздела overview страницы протеома были взяты данные об ID и общем количестве белков, всё указано в Таблице 1.
Характеристика | Neisseria lactamica 020-06 | Escherichia coli K12 |
---|---|---|
ID | UP000008723 | UP000000625 |
Всего белков | 1961 | 4391 |
Белки в Swiss-prot | 1 | 4389 |
Для выделения группы ферментов в поисковой строке необходимо ввести "ec:* AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723".
В третью группу входят представители семейства регуляторных белков. Выбор пал на эту группу, т.к. обзор протеома Neisseria lactamica 020-06 выявил, возможно, ключевое отличие с Neisseria meningitidis, которое может помочь использовать N. lactamica в борьбе с возбудителем менингита. Для выделения использовался запрос "family:regulatory AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723".
Результаты поиска приведены в Таблице 2. Примеры приведены для Neisseria lactamica 020-06.
Neisseria lactamica 020-06 | Escherichia coli K12 | Поисковый запрос (N. lactamica) | |
---|---|---|---|
Трансмембранные белки | 0/322 | 1159/120 | annotation:(type:transmem) AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723 |
Ферменты | 1/590 | 2558/2358 | ec:* AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723 |
Регуляторные белки | 0/7 | 52/0 | family:regulatory AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723 |
Сразу бросается в глаза преобладание проверенных вручную последовательностей белков у Escherichia coli K12, что говорит об очень хорошей изученности бактерии, что неудивительно, учитывая факт, что это наиболее часто используемый модельный организм. У Neisseria lactamica 020-06 число таких последовательностей стремится к нулю, что может быть связано с меньшим вниманием вследствие ограниченности применения.
Регуляторные белки, в отличие от E. coli K12, у N. lactamica 020-06 почти не изучены, что осложняет сопоставление с N. meningitidis и разработку методов лечения и предупреждения менингитных инфекций.
Целью задания являлось получение последовательности в формате fasta одного из зрелых белков коронавируса, который получается в процессе гидролиза полипротеина 1ab. В работе рассматривается вирус MERS (AC полипротеина K9N7C7).
Для получения распределения белков по последовательностям необходимо из скачанной с помощью Команды 1 (список представлен ниже) полной записи последовательности строчки выделить строчки, содержащие "FT CHAIN". Действие было произведено с помощью Команды 2. В результате выполнения получается набор строк с интервалами номеров аминокислот, соответствующих последовательностям белков. Для дальнейшего рассмотрения была выбрана первая последовательность с 1 по 193 аминокислоту.
Команда 3 помогла выделить последовательность в файл str.fasta. Последним шагом была замена идентификатора и описания последовательности на соответствующую зрелому белку. Для этого на странице полипротеина в базе UniProt, найденной по изначальному идентификатору R1AB_CVEMC, в разделе "PTM / Processing" копировались данные, соответствующие искомой последовательности, а позже вставлялись вместо исходных с помощью текстового редактора Vim.
Команда 1: entret 'uniprot:K9N7C7' K9N7C7.txt Команда 2: grep CHAIN K9N7C7.txt | grep FT FT CHAIN 1..193 FT CHAIN 194..853 FT CHAIN 854..2740 FT CHAIN 2741..3247 FT CHAIN 3248..3553 FT CHAIN 3554..3845 FT CHAIN 3846..3928 FT CHAIN 3929..4127 FT CHAIN 4128..4237 FT CHAIN 4238..4377 FT CHAIN 4378..5310 FT CHAIN 5311..5908 FT CHAIN 5909..6432 FT CHAIN 6433..6775 FT CHAIN 6776..7078 Команда 3: seqret 'K9N7C7.txt:[1:193]' str.fasta
Утилита EMBOSS "descseq" позволяет менять имя или описание последовательности. Имеет следующий синтаксис: "descseq -sequence sequence [-name string] [-description string] -append boolean -outseq seqout". Первым аргументом команда принимает последовательность (файл), вторым название (идентификатор) или описание, аргумент -outseq задаёт файл (выход), в котором сохранится результат. Также можно использовать аргумент -append, позволяющий добавить к уже существующему имени или описанию строку, по умолчанию его значение отсутствует. Важно заранее удалить имя и описание, если вы не добавляете к уже имеющемуся.
Ниже приведён подробный пример использования. Для него была использована последовательность белка, обозревавшегося в практикуме по работе с UniProt. Исконное название и описание были заменены на "name" и "desc" соответственно.
entret 'uniprot:P83597' seq.txt seqret seq.txt cat seq.fasta >EAP2_EUCUL P83597 Antifungal peptide 2 (EAFP2) QTCASRCPRPCNAGLCCSIYGYCGSGAAYCGAGNCRCQCRG [удаление первой строки с помощью Vim] descseq -seq seq.fasta -out seq.fasta -name 'name' -description 'desc' cat seq.fasta >name desc QTCASRCPRPCNAGLCCSIYGYCGSGAAYCGAGNCRCQCRG