UniProt Proteomes. EMBOSS

1. Сравнение протеомов
Для сравнения протеомов был выполнен поиск по видовым названиям бактерий в UniProt Proteomes. Протеомы обеих бактерий оказались референсными. Результаты поиска представлены в Таблице 1. Далее были произведены сеансы поиска среди белков каждого протеома. Для того чтобы найти трансмембранные белки, использовалось местонахождение белка в клетке (Subcellular location > Transmembrane в расширенном поиске). Ферменты же были найдены с помощью расширенного поика по их функции (Function > Enzyme classification [EC]). Чтобы найти белки, связанные с азотфиксацией, был выполнен поиск, включающий "nitrogen fixation", по всем полям. Поисковые запросы и результаты сеансов поиска приведены в Таблице 2 и Таблице 3.

Таблица 1. Информация о протеомах бактерий
БактерияID протеомаКоличество белков в протеомеКоличество белков в протеоме из Swiss-Prot
Escherichia coli strain K-12UP00000062543914389
Frankia alni strain ACN14aUP0000006576710208



Таблица 2. Количества белков разных "функциональных групп" у Escherichia coli strain K-12
"Функциональная группа"Поисковый запросКоличество белков
Трансмембранные белкиannotation:(type:transmem) AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625946
Ферментыec:* AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up0000006251676
Азотфиксацияnitrogen fixation AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up0000006252



Таблица 3. Количества белков разных "функциональных групп" у Frankia alni strain ACN14a
"Функциональная группа"Поисковый запросКоличество белков
Трансмембранные белкиannotation:(type:transmem) AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up000000657887
Ферментыec:* AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up0000006571571
Азотфиксацияnitrogen fixation AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up0000006579

Трансмембранные белки составляют 21,54% от всего протеома у E.coli и 13,22% у F. alni, а ферменты - 38,17% у E.coli и 23,41% у F.alni. Из данных следует, что белков, которым присвоен какой-нибудь код фермента EC, больше, чем трансмембранных белков у обеих бактерий. Кроме того, у E.coli больше и ферментов, и трансмембранных белков. Возможно, меньший процент белков каждой из этих двух "функциональных групп" у F.alni объясняется недостаточной изученностью ее протеома - всего 3,10% белков находятся в базе Swiss-Prot, в то время как у E.coli изучен почти весь протеом - 99,95%.
Frankia alni - азотфиксирующая бактерия. Поэтому был проведен сеанс поиска белков, связанных с азотфиксацией. Было найдено 9 белков, которые составляют 0,13% от всего протеома: цепи нитрогеназы, регулятор азотфиксации, белок, защищающий нитрогеназу от окисления, и другие. У E.coli всего 2 белка (0,05%), которые способны принимать участие в азотфиксации. Однако для этой бактерии не характерен данный процесс: у нее нет ключевого фермента азотфиксации - нитрогеназы (0 результатов поиска по запросу nitrogenase AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625). Белки, найденные в результате поиска белков, связанных с азотфиксацией, представляют собой регуляторную систему, контролирующую метаболизм азота при его недостатке.



2. Получение зрелых белков вируса SARS (AC полипротеина: P0C6X7)
1. Скачивание полной записи для полипротеина из UniProt с помощью команды entret 'uniprot:P0C6X7' P0C6X7
2. Получение списка всех участков из таблицы локальных особенностей с ключом "CHAIN" с помощью grep '^FT' P0C6X7 | grep 'CHAIN' P0C6X7 > chains.txt
Файл chains.txt:

FT   CHAIN           1..180
FT   CHAIN           181..818
FT   CHAIN           819..2740
FT   CHAIN           2741..3240
FT   CHAIN           3241..3546
FT   CHAIN           3547..3836
FT   CHAIN           3837..3919
FT   CHAIN           3920..4117
FT   CHAIN           4118..4230
FT   CHAIN           4231..4369
FT   CHAIN           4370..5301
FT   CHAIN           5302..5902
FT   CHAIN           5903..6429
FT   CHAIN           6430..6775
FT   CHAIN           6776..7073
3. Сохранение одной выбранной цепи (т.е. зрелого белка) в формате fasta c помощью seqret 'sw:P0C6X7[1:180]' protein1.fasta
4. Редактирование строки заголовка fasta с помощью текстового редактора. Ссылка на итоговый файл fasta



3. Описание утилиты из пакета EMBOSS

Утилита getorf позволяет предсказывать открытые рамки считывания. На вход подается последовательность нуклеотидов и имя файла, в который необходимо записать результат выполнения программы. В результате получается одна или несколько аминокислотных последовательностей в формате fasta - предсказанные открытые рамки считывания, причем имя каждой последовательности состоит из имени исходной последовательности и порядкового номера обнаруженной ORF, а в описании, помимо описания исходной последовательности, содержатся координаты данной последовательности. Кроме того, если ORF найдена на комплементарной цепи, в описание добавляется пометка (REVERSE SENSE). По умолчанию минимальный размер открытой рамки считывания составляет 30 нуклеотидов (10 аминокислот), а определяется ORF как последовательность от старт-кодона до стоп-кодона или между двумя стоп-кодонами, но это можно изменить с помощью дополнительных аргументов -minsize и -find. Также можно задать максимальную длину ORF и выбрать генетический код. Существует возможность предсказывать ORF для кольцевых последовательностей. Пример использования (предсказание открытых рамок считывания в последовательности, кодирующей лактозный репрессор у E.coli):
getorf embl:v00294 v00294
В результате выполнения команды создается файл: v00294