UniProt Proteomes. EMBOSS

UniProt Proteomes. EMBOSS

1. Сравнение протеомов


Задачей данной части практикума было сопоставление долей белков определённой функциональной группы в протеомах Neisseria lactamica (strain 020-06), уже обозревался, и Escherichia coli (strain K12).

Из раздела overview страницы протеома были взяты данные об ID и общем количестве белков, всё указано в Таблице 1.

Таблица 1
Характеристика Neisseria lactamica 020-06 Escherichia coli K12
ID UP000008723 UP000000625
Всего белков 1961 4391
Белки в Swiss-prot 1 4389
Далее проводилось сравнение по трём функциональным группам. Для поиска трансмембранных белков в поисковой строке необходимо использовать раздел Advanced. В конечном итоге поисковым запросом будет являться строка "annotation:(type:transmem) AND proteome:up000008723", однако после поиска к ней прибавится критерий поиска по организму, и она преобразуется в "annotation:(type:transmem) AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723".

Для выделения группы ферментов в поисковой строке необходимо ввести "ec:* AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723".

В третью группу входят представители семейства регуляторных белков. Выбор пал на эту группу, т.к. обзор протеома Neisseria lactamica 020-06 выявил, возможно, ключевое отличие с Neisseria meningitidis, которое может помочь использовать N. lactamica в борьбе с возбудителем менингита. Для выделения использовался запрос "family:regulatory AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723".

Результаты поиска приведены в Таблице 2. Примеры приведены для Neisseria lactamica 020-06.

Таблица 2
Числа представлены в формате [reviewed] / [unreviewed]
Neisseria lactamica 020-06 Escherichia coli K12 Поисковый запрос (N. lactamica)
Трансмембранные белки 0/322 1159/120 annotation:(type:transmem) AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723
Ферменты 1/590 2558/2358 ec:* AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723
Регуляторные белки 0/7 52/0 family:regulatory AND organism:"Neisseria lactamica (strain 020-06) [489653]" AND proteome:up000008723
Выводы

Сразу бросается в глаза преобладание проверенных вручную последовательностей белков у Escherichia coli K12, что говорит об очень хорошей изученности бактерии, что неудивительно, учитывая факт, что это наиболее часто используемый модельный организм. У Neisseria lactamica 020-06 число таких последовательностей стремится к нулю, что может быть связано с меньшим вниманием вследствие ограниченности применения.

Регуляторные белки, в отличие от E. coli K12, у N. lactamica 020-06 почти не изучены, что осложняет сопоставление с N. meningitidis и разработку методов лечения и предупреждения менингитных инфекций.

2. Получение зрелых белков одного из коронавирусов

Целью задания являлось получение последовательности в формате fasta одного из зрелых белков коронавируса, который получается в процессе гидролиза полипротеина 1ab. В работе рассматривается вирус MERS (AC полипротеина K9N7C7).

Для получения распределения белков по последовательностям необходимо из скачанной с помощью Команды 1 (список представлен ниже) полной записи последовательности строчки выделить строчки, содержащие "FT CHAIN". Действие было произведено с помощью Команды 2. В результате выполнения получается набор строк с интервалами номеров аминокислот, соответствующих последовательностям белков. Для дальнейшего рассмотрения была выбрана первая последовательность с 1 по 193 аминокислоту.

Команда 3 помогла выделить последовательность в файл str.fasta. Последним шагом была замена идентификатора и описания последовательности на соответствующую зрелому белку. Для этого на странице полипротеина в базе UniProt, найденной по изначальному идентификатору R1AB_CVEMC, в разделе "PTM / Processing" копировались данные, соответствующие искомой последовательности, а позже вставлялись вместо исходных с помощью текстового редактора Vim.

                
                Команда 1: entret 'uniprot:K9N7C7' K9N7C7.txt
                Команда 2: grep CHAIN K9N7C7.txt | grep FT

                FT   CHAIN           1..193
                FT   CHAIN           194..853
                FT   CHAIN           854..2740
                FT   CHAIN           2741..3247
                FT   CHAIN           3248..3553
                FT   CHAIN           3554..3845
                FT   CHAIN           3846..3928
                FT   CHAIN           3929..4127
                FT   CHAIN           4128..4237
                FT   CHAIN           4238..4377
                FT   CHAIN           4378..5310
                FT   CHAIN           5311..5908
                FT   CHAIN           5909..6432
                FT   CHAIN           6433..6775
                FT   CHAIN           6776..7078

                Команда 3: seqret 'K9N7C7.txt:[1:193]' str.fasta
              

3. Описание утилиты из пакета EMBOSS

Утилита EMBOSS "descseq" позволяет менять имя или описание последовательности. Имеет следующий синтаксис: "descseq -sequence sequence [-name string] [-description string] -append boolean -outseq seqout". Первым аргументом команда принимает последовательность (файл), вторым название (идентификатор) или описание, аргумент -outseq задаёт файл (выход), в котором сохранится результат. Также можно использовать аргумент -append, позволяющий добавить к уже существующему имени или описанию строку, по умолчанию его значение отсутствует. Важно заранее удалить имя и описание, если вы не добавляете к уже имеющемуся.

Ниже приведён подробный пример использования. Для него была использована последовательность белка, обозревавшегося в практикуме по работе с UniProt. Исконное название и описание были заменены на "name" и "desc" соответственно.


                entret 'uniprot:P83597' seq.txt
                seqret seq.txt
                cat seq.fasta
                >EAP2_EUCUL P83597 Antifungal peptide 2 (EAFP2)
                QTCASRCPRPCNAGLCCSIYGYCGSGAAYCGAGNCRCQCRG
                [удаление первой строки с помощью Vim]
                descseq -seq seq.fasta -out seq.fasta -name 'name' -description 'desc'
                cat seq.fasta
                >name desc
                QTCASRCPRPCNAGLCCSIYGYCGSGAAYCGAGNCRCQCRG