Для наглядной оценки степени изученности белков бактерии Coraliomargarita akajimensis было произведено сравнение с хорошо изученным протеомом кишечной палочки(Escherichia coli). Показателем изученности было выбрано количество белков протеома, находящиеся в базе данных Swiss-Prot. Поиск производился по материалам базы данных Uniprot Proteoms1, результаты поисковых запросов находятся в таблице.
№ | Описание | Coraliomargarita akajimensis | Escherichia coli |
---|---|---|---|
0 | Идентификатор протеома | UP000000925 | UP000000625 |
1.0 | Запрос | UP000000925 | UP000000625 |
1.1 | Общее количество белков | 3110 | 4391 |
1.1 | Количество белков в Swiss-Prot | 0 | 4389 |
2.0 | Запрос | annotation:(type:transmem) AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 | annotation:(type:transmem) AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 |
2.1 | Общее количество белков | 617 | 946 |
2.2 | Количество белков в Swiss-Prot | 0 | 946 |
3.0 | Запрос | ec:* AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 | ec:* AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 |
3.1 | Общее количество белков | 553 | 1676 |
3.2 | Количество белков в Swiss-Prot | 0 | 1676 |
3.0 | Запрос | ec:1.1.-.- AND organism:"Coraliomargarita akajimensis" AND proteome:up000000925 | ec:1.1.-.- AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 |
3.1 | Общее количество белков | 21 | 88 |
3.2 | Количество белков в Swiss-Prot | 0 | 88 |
Обе бактерии являются грамотрицательными, однако среда жизни различна: Coraliomargarita akajimensis обитает в море и обнаружена на кораллах, а Escherichia coli - в других организмах. Этим можно объяснить некоторую разницу в количестве трансмембранных белков.
Однако наиболее вероятной причиной различий в количествах белков является остутствие тщательного изучения в силу недавнего открытия организма (2007 год) и отсутствия использования его на практике.
Основной вывод, который можно сделать из результатов поиска - протеом бактерии Coraliomargarita akajimensis недостаточно изучен: среди 3110 белков нет ни одного рецензированного и помещенного в Swiss-Prot. Даже если принять во внимание то, что протеом кишечной палочки почти в 1,5 раза больше, общее число белков в каждой категории составляет более чем 1,5 от соответствующего числа белков Coraliomargarita akajimensis (достигая максимума >4 в последнем запросе, даже вопреки специфичности для конкретной бактерии). Это еще раз подтверждает мысль о недостаточной изученности функции и локализации белков бактерии.
В качестве последней группы была выбрана группа ферментов, отвечающая за катализ окислительно-восстановительных реакций по спиртовой группе(E.C. 1.1.-.-). Идея не является в высокой степени оригинальной, но ее выбор обусловлен сведениями2 о возможности бактерии Coraliomargarita akajimensis окислять разнообразные спирты до карбоновых кислот.
Для поиска по конкретному протеому используются строки файла описания белка, начинающиеся с DR(Database cross-Reference), для поиска по организму - с OS (Organism Species). Информация о трансмембранном положении белка отражается как в строчках, начинающихся с KW(KeyWord), так и в разделе FT(Feature Table). Однако опция поиска "Key words" дает основания предположить, что по-умолчанию трансмембранность белка устанавливается как наличие трансмембранных частей по feature table. Сведения о значении и вероятном использовании в поисковых запросах взяты их мануала Uniprot3, а гипотеза построена с помощью поиска слов из поисковой строки в файлах описания белка.
Последовательность белка находится в записи Uniprot с кодом доступа P0C6X7. Для скачивания записи был использован пакет биоинформатических программ EMBOSS, в частности команда "entret".
entret 'uniprot:P0C6X7' SARS.tmp -filter
Результат работы команды находиться по ссылке.
Для определения границ цепей была использована стандартная для Unix команда "grep".
grep "FT CHAIN" SARS.tmp
Результаты ее использования представлены ниже.
FT CHAIN 1..180 FT CHAIN 181..818 FT CHAIN 819..2740 FT CHAIN 2741..3240 FT CHAIN 3241..3546 FT CHAIN 3547..3836 FT CHAIN 3837..3919 FT CHAIN 3920..4117 FT CHAIN 4118..4230 FT CHAIN 4231..4369 FT CHAIN 4370..5301 FT CHAIN 5302..5902 FT CHAIN 5903..6429 FT CHAIN 6430..6775 FT CHAIN 6776..7073
По данным страницы Uniprot, соответствующей записи, необходимая цепь лежит в пределах 3241 и 3546 аминокислотных остатков. Для выделения этой цепи использовалась команда "seqret".
seqret SARS.tmp -sbegin1 3241 -send1 3546 chainE.fasta.old
Промежуточный fasta файл можно просмотреть по ссылке.
Для редактирования была создана копия chainE.fasta, само редактирование осуществлено с помощью комнады "descseq", информация о белке взята с той же странице Uniprot.
descseq chainE.fasta -name "RNA-directed RNA polymerase" -description "Responsible for replication and transcription of the viral RNA genome" chainE.fasta
В заключение получен итоговый файл fasta.
Команда подсчитывает и извлекает все возможные уникальные слова последовательности заданного размера в одной или нескольких последовательностях ДНК. Он записывает выходной файл с указанием всех возможных слов для этого размера слова с подсчётом каждого слова во входных последовательностях4.
wordcount uniprot:Q9K4U1 -wordsize=3
В результате команда запрашивает имя файла, в которую она запишет все уникальные последовательности длиной 3. Просмотреть выход команды по ссылке.
Команда не будет запрашивать имя если указать опцию "-outfile", она необязательна, в отличие от "-wordsize".
wordcount uniprot:Q9K4U1 -wordsize=3 -outfile="test.tmp"
Этот файл можно сравнить с предыдущим, полученным без использования опции.