1. Сравнение протеомов
Для сравнения протеомов был выполнен поиск по видовым названиям бактерий в UniProt Proteomes. Протеомы обеих бактерий оказались референсными. Результаты поиска представлены в Таблице 1. Далее были произведены сеансы поиска среди белков каждого протеома. Для того чтобы найти трансмембранные белки, использовалось местонахождение белка в клетке (Subcellular location > Transmembrane в расширенном поиске). Ферменты же были найдены с помощью расширенного поика по их функции (Function > Enzyme classification [EC]). Чтобы найти белки, связанные с азотфиксацией, был выполнен поиск, включающий "nitrogen fixation", по всем полям. Поисковые запросы и результаты сеансов поиска приведены в Таблице 2 и Таблице 3.
Бактерия | ID протеома | Количество белков в протеоме | Количество белков в протеоме из Swiss-Prot |
---|---|---|---|
Escherichia coli strain K-12 | UP000000625 | 4391 | 4389 |
Frankia alni strain ACN14a | UP000000657 | 6710 | 208 |
"Функциональная группа" | Поисковый запрос | Количество белков |
---|---|---|
Трансмембранные белки | annotation:(type:transmem) AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 | 946 |
Ферменты | ec:* AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 | 1676 |
Азотфиксация | nitrogen fixation AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 | 2 |
"Функциональная группа" | Поисковый запрос | Количество белков |
---|---|---|
Трансмембранные белки | annotation:(type:transmem) AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up000000657 | 887 |
Ферменты | ec:* AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up000000657 | 1571 |
Азотфиксация | nitrogen fixation AND organism:"Frankia alni (strain ACN14a) [326424]" AND proteome:up000000657 | 9 |
Трансмембранные белки составляют 21,54% от всего протеома у E.coli и 13,22% у F. alni, а ферменты - 38,17% у E.coli и 23,41% у F.alni. Из данных следует, что белков, которым присвоен какой-нибудь код фермента EC, больше, чем трансмембранных белков у обеих бактерий. Кроме того, у E.coli больше и ферментов, и трансмембранных белков. Возможно, меньший процент белков каждой из этих двух "функциональных групп" у F.alni объясняется недостаточной изученностью ее протеома - всего 3,10% белков находятся в базе Swiss-Prot, в то время как у E.coli изучен почти весь протеом - 99,95%.
Frankia alni - азотфиксирующая бактерия. Поэтому был проведен сеанс поиска белков, связанных с азотфиксацией. Было найдено 9 белков, которые составляют 0,13% от всего протеома: цепи нитрогеназы, регулятор азотфиксации, белок, защищающий нитрогеназу от окисления, и другие. У E.coli всего 2 белка (0,05%), которые способны принимать участие в азотфиксации. Однако для этой бактерии не характерен данный процесс: у нее нет ключевого фермента азотфиксации - нитрогеназы (0 результатов поиска по запросу nitrogenase AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625). Белки, найденные в результате поиска белков, связанных с азотфиксацией, представляют собой регуляторную систему, контролирующую метаболизм азота при его недостатке.
2. Получение зрелых белков вируса SARS (AC полипротеина: P0C6X7)
1. Скачивание полной записи для полипротеина из UniProt с помощью команды entret 'uniprot:P0C6X7' P0C6X7
2. Получение списка всех участков из таблицы локальных особенностей с ключом "CHAIN" с помощью grep '^FT' P0C6X7 | grep 'CHAIN' P0C6X7 > chains.txt
Файл chains.txt:
FT CHAIN 1..180 FT CHAIN 181..818 FT CHAIN 819..2740 FT CHAIN 2741..3240 FT CHAIN 3241..3546 FT CHAIN 3547..3836 FT CHAIN 3837..3919 FT CHAIN 3920..4117 FT CHAIN 4118..4230 FT CHAIN 4231..4369 FT CHAIN 4370..5301 FT CHAIN 5302..5902 FT CHAIN 5903..6429 FT CHAIN 6430..6775 FT CHAIN 6776..70733. Сохранение одной выбранной цепи (т.е. зрелого белка) в формате fasta c помощью seqret 'sw:P0C6X7[1:180]' protein1.fasta
3. Описание утилиты из пакета EMBOSS
Утилита getorf позволяет предсказывать открытые рамки считывания. На вход подается последовательность нуклеотидов и имя файла, в который необходимо записать результат выполнения программы. В результате получается одна или несколько аминокислотных последовательностей в формате fasta - предсказанные открытые рамки считывания, причем имя каждой последовательности состоит из имени исходной последовательности и порядкового номера обнаруженной ORF, а в описании, помимо описания исходной последовательности, содержатся координаты данной последовательности. Кроме того, если ORF найдена на комплементарной цепи, в описание добавляется пометка (REVERSE SENSE). По умолчанию минимальный размер открытой рамки считывания составляет 30 нуклеотидов (10 аминокислот), а определяется ORF как последовательность от старт-кодона до стоп-кодона или между двумя стоп-кодонами, но это можно изменить с помощью дополнительных аргументов -minsize и -find. Также можно задать максимальную длину ORF и выбрать генетический код. Существует возможность предсказывать ORF для кольцевых последовательностей. Пример использования (предсказание открытых рамок считывания в последовательности, кодирующей лактозный репрессор у E.coli):
getorf embl:v00294 v00294
В результате выполнения команды создается файл: v00294