Сравнение протеомов, основы управления EMBOSS

Сравнение протеомов бактерий Coraliomargarita akajimensis (strain DSM 45221) и Escherichia coli (strain K12)

Для наглядной оценки степени изученности белков бактерии Coraliomargarita akajimensis было произведено сравнение с хорошо изученным протеомом кишечной палочки(Escherichia coli). Показателем изученности было выбрано количество белков протеома, находящиеся в базе данных Swiss-Prot. Поиск производился по материалам базы данных Uniprot Proteoms1, результаты поисковых запросов находятся в таблице.

Описание Coraliomargarita akajimensis Escherichia coli
0 Идентификатор протеома UP000000925 UP000000625
1.0 Запрос UP000000925 UP000000625
1.1 Общее количество белков 3110 4391
1.1 Количество белков в Swiss-Prot 0 4389
2.0 Запрос annotation:(type:transmem) AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 annotation:(type:transmem) AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625
2.1 Общее количество белков 617 946
2.2 Количество белков в Swiss-Prot 0 946
3.0 Запрос ec:* AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 ec:* AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625
3.1 Общее количество белков 553 1676
3.2 Количество белков в Swiss-Prot 0 1676
3.0 Запрос ec:1.1.-.- AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 ec:1.1.-.- AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625
3.1 Общее количество белков 21 88
3.2 Количество белков в Swiss-Prot 0 88

Обе бактерии являются грамотрицательными, однако среда жизни различна: Coraliomargarita akajimensis обитает в море и обнаружена на кораллах, а Escherichia coli - в других организмах. Этим можно объяснить некоторую разницу в количестве трансмембранных белков.

Однако наиболее вероятной причиной различий в количествах белков является остутствие тщательного изучения в силу недавнего открытия организма (2007 год) и отсутствия использования его на практике.

Основной вывод, который можно сделать из результатов поиска - протеом бактерии Coraliomargarita akajimensis недостаточно изучен: среди 3110 белков нет ни одного рецензированного и помещенного в Swiss-Prot. Даже если принять во внимание то, что протеом кишечной палочки почти в 1,5 раза больше, общее число белков в каждой категории составляет более чем 1,5 от соответствующего числа белков Coraliomargarita akajimensis (достигая максимума >4 в последнем запросе, даже вопреки специфичности для конкретной бактерии). Это еще раз подтверждает мысль о недостаточной изученности функции и локализации белков бактерии.

В качестве последней группы была выбрана группа ферментов, отвечающая за катализ окислительно-восстановительных реакций по спиртовой группе(E.C. 1.1.-.-). Идея не является в высокой степени оригинальной, но ее выбор обусловлен сведениями2 о возможности бактерии Coraliomargarita akajimensis окислять разнообразные спирты до карбоновых кислот.

Для поиска по конкретному протеому используются строки файла описания белка, начинающиеся с DR(Database cross-Reference), для поиска по организму - с OS (Organism Species). Информация о трансмембранном положении белка отражается как в строчках, начинающихся с KW(KeyWord), так и в разделе FT(Feature Table). Однако опция поиска "Key words" дает основания предположить, что по-умолчанию трансмембранность белка устанавливается как наличие трансмембранных частей по feature table. Сведения о значении и вероятном использовании в поисковых запросах взяты их мануала Uniprot3, а гипотеза построена с помощью поиска слов из поисковой строки в файлах описания белка.

Получение зрелого белка с кодом доступа P0C6X7 из вируса SARS

Скачивание записи из Uniprot

Последовательность белка находится в записи Uniprot с кодом доступа P0C6X7. Для скачивания записи был использован пакет биоинформатических программ EMBOSS, в частности команда "entret".

entret 'uniprot:P0C6X7' SARS.tmp -filter

Результат работы команды находиться по ссылке.

Получение отрезков цепей

Для определения границ цепей была использована стандартная для Unix команда "grep".

grep "FT   CHAIN" SARS.tmp

Результаты ее использования представлены ниже.

FT   CHAIN           1..180
FT   CHAIN           181..818
FT   CHAIN           819..2740
FT   CHAIN           2741..3240
FT   CHAIN           3241..3546
FT   CHAIN           3547..3836
FT   CHAIN           3837..3919
FT   CHAIN           3920..4117
FT   CHAIN           4118..4230
FT   CHAIN           4231..4369
FT   CHAIN           4370..5301
FT   CHAIN           5302..5902
FT   CHAIN           5903..6429
FT   CHAIN           6430..6775
FT   CHAIN           6776..7073

Сохранение необходимой цепи в fasta формате

По данным страницы Uniprot, соответствующей записи, необходимая цепь лежит в пределах 3241 и 3546 аминокислотных остатков. Для выделения этой цепи использовалась команда "seqret".

seqret SARS.tmp -sbegin1 3241 -send1 3546 chainE.fasta.old

Промежуточный fasta файл можно просмотреть по ссылке.

Редактирование fasta файла

Для редактирования была создана копия chainE.fasta, само редактирование осуществлено с помощью комнады "descseq", информация о белке взята с той же странице Uniprot.

descseq chainE.fasta -name "RNA-directed RNA polymerase" -description "Responsible for replication and transcription of the viral RNA genome" chainE.fasta

В заключение получен итоговый файл fasta.

Описание утилиты "wordcount" из пакета EMBOSS

Команда подсчитывает и извлекает все возможные уникальные слова последовательности заданного размера в одной или нескольких последовательностях ДНК. Он записывает выходной файл с указанием всех возможных слов для этого размера слова с подсчётом каждого слова во входных последовательностях4.

wordcount uniprot:Q9K4U1 -wordsize=3

В результате команда запрашивает имя файла, в которую она запишет все уникальные последовательности длиной 3. Просмотреть выход команды по ссылке.

Команда не будет запрашивать имя если указать опцию "-outfile", она необязательна, в отличие от "-wordsize".

wordcount uniprot:Q9K4U1 -wordsize=3 -outfile="test.tmp"

Этот файл можно сравнить с предыдущим, полученным без использования опции.

Литература