Практикум 9. UniProt Proteomes, EMBOSS
В ходе этого практикума было произведено сравнение протеомов Mycobacterium haemophilum и Escherichia coli на предмет количества и доли белков некоторых функциональных групп при помощи поиска белков соответствующих протеомов в UniProt, были получены последовательности зрелых белков вируса MERS с помощью утилит EMBOSS, а также составлено краткое описание утилиты wordcount.
Сравнение протеомов
Для бактерии Mycobacterium haemophilum в UniProt Proteomes были найдены 5 протеомов, из них 4 - со статусом "redundant" (Proteome ID: UP000066812, UP000036536, UP000036494, UP000036311) и 1 - со статусом "reference" (Proteome ID: UP000036334). Последний включает в себя 3 743 белка; все из них - из раздела TrEMBL, т.е. аннотированы автоматически. Для сравнения, в протеоме Escherichia coli str. K12 со статусом "reference" - 4 391 белок, из них 4 389 - из раздела Swiss-Prot и 2 - из раздела TrEMBL. Очевидно, что над записями о белках E. coli - популярного модельного объекта - была проведена масштабная работа по их аннотированию вручную, в то время как белкам M. haemophilum не было уделено внимания.
Далее приведены поисковые запросы для белков различных функциональных групп в протеомах M. haemophilum и E. coli. Цель поиска - сравнить доли белков этих групп в рассматриваемых протеомах.
Поиск ферментов
Текст запроса (для M. haemophilum): ec:* AND organism:"Mycobacterium haemophilum [29311]" AND proteome:up000036334
В протеоме M. haemophilum найдено 593 белка (~ 10,45% от общего числа белков); в протеоме E. coli по аналогично
запросу - 1 676 белков (~ 38,17%), все из них - из раздела Swiss-Prot. Такое значительное отличие в доле ферментов, скорее всего, объясняется не биологическими причинами, а тем, что при автоматической аннотации белков M. haemophilum
не все ферменты были отмечены как таковые. К тому же, в протеоме этой бактерии присутствуют 674 белка, названных
"Uncharacterized protein", и, вероятно, среди них есть необнаруженные ферменты.
Поиск трансмембранных белков
Текст запроса (для M. haemophilum): annotation:(type:transmem) AND organism:"Mycobacterium haemophilum [29311]" AND proteome:up000036334
В протеоме M. haemophilum найдено 663 белка (~ 17,71%); в протеоме E. coli по аналогичному запросу - 946 белков
(~ 21,54% от общего числа), все из них - из раздела Swiss-Prot. В данном случае доли трансмембранных белков в обоих протеомах сопоставимы,
а небольшое различие объясняется вышеупомянутыми причинами.
Поиск белков, связывающих гем
M. haemophilum требовательна к содержанию железа в субстрате и хорошо культивируется в гемсодержащей среде, так как, согласно статье JoAnn M. Tufariello и др. (2015), имеет систему белков для поглощения гема. В связи с этим интересно сравнить число белков, связывающих гем, у M. haemophilum и E. coli.
Текст запроса (для M. haemophilum): keyword:heme AND organism:"Mycobacterium haemophilum [29311]" AND proteome:up000036334
В протеоме M. haemophilum найдено 36 белков (~ 0,96%); в протеоме E. coli по аналогичному запросу - 38 белков
(~ 0,87%), все из них - из раздела Swiss-Prot. Количество обнаруженных белков в обоих протеомах примерно одинаково,
в большинстве случаев они представляют собой оксидоредуктазы либо цитохромы. Специфичных белков, отвечающих за поглощение
гема у M. haemophilum, найдено не было; возможно, это снова связано либо с большим числом неохарактеризованных белков
в протеоме, либо с тем, что искомым белкам не было присвоено ключевое слово "heme". Из особенностей рассматриваемой группы белков у M. haemophilum можно отметить
наличие белка под названием "truncated hemoglobin" и нескольких ферментов, способствующих, по-видимому, его синтезу. Функции
этого белка не до конца известны, установлено, что он может служить для защиты от активных форм кислорода и азота. Таким образом,
доли белков, содержащих гем, в обоих протеомах практически равны, и такие белки выполняют схожие функции, используя возможность
катиона железа, входящего в состав гема, изменять степень окисления.
Получение зрелых белков вируса MERS
Цель задания - получить последовательность одного из зрелых белков вируса из записи для полипротеина в UniProt при помощи утилит EMBOSS. Задание выполнялось в несколько этапов:
Cкачивание полной записи для полипротеина из UniProt
Для этого была использована команда:
entret 'uniprot:K9N7C7' K9N7C7.txt
Получение списка участков таблицы локальных особенностей с ключом CHAIN
Команда:
grep 'FT CHAIN' K9N7C7.txt > chains.txt
Содержимое полученного файла:
FT CHAIN 1..193 FT CHAIN 194..853 FT CHAIN 854..2740 FT CHAIN 2741..3247 FT CHAIN 3248..3553 FT CHAIN 3554..3845 FT CHAIN 3846..3928 FT CHAIN 3929..4127 FT CHAIN 4128..4237 FT CHAIN 4238..4377 FT CHAIN 4378..5310 FT CHAIN 5311..5908 FT CHAIN 5909..6432 FT CHAIN 6433..6775 FT CHAIN 6776..7078
Сохранение последовательности одной из цепей
Была выбрана цепь РНК-направленной РНК-полимеразы и использована команда:
seqret 'uniprot:K9N7C7[5311:5908]' 'RdRp.fasta'
Редактирование строки заголовка fasta-файла
Команда:
descseq -seq 'RdRp.fasta' -out 'RdRp1.fasta' -name 'RNA-directed RNA polymerase' -desc 'Responsible for replication and transcription of the viral RNA genome'
Полученный файл с последовательностью зрелого белка можно просмотреть по ссылке.
Описание утилиты wordcount
Функция данной утилиты состоит в том, чтобы находить, подсчитывать и выводить в файл все возможные уникальные "слова" из последовательности во входном файле. Количество символов в "слове" определяется аргументом -wordsize.
Пример использования:
wordcount 'RdRp1.fasta' 'words.txt' -wordsize=2
В данном случае будет подсчитано количество уникальных "слов" из двух символов в последовательности RdRp1.fasta,
а результат выведется в файл words.txt.