В данной части практикума было произведено сравнение двух протеомов: протеома Escherichia coli strain K-12 и протеома Helicobacter typhlonius.
Для начала сравним общие данные, предствыленные в таблице 1 (Table. 1.). Как видно из таблицы, протеом E.coli гораздо лучше изучен. Об этом свидительствует процентное соотношение аннотированных белков из базы данных Swiss-Prot и белков из автоматической базы данных TrEMBL. У H.typhlonius аннотированных белков в протеоме нет, в то время как 99.95% белков E.coli имеют аннотацию.
Организм | ID протеома | Общее количество белков | Количество белков в базе Swiss-Prot |
---|---|---|---|
Escherichia coli | UP000000625 | 4,391 | 4389 |
Helicobacter typhlonius | UP000064525 | 2,096 | 0 |
Далее производим поиск по трем различным функциональным группам. Результаты поиска представлены в таблице 2 (Table. 2.)
Функциональная группа | Escherichia coli | Helicobacter typhlonius |
---|---|---|
Трансмембранные белки | 946 (21.54%) | 445 (21.23%) |
Ферменты | 1676 (38.17%) | 609 (29.06%) |
Аргиназы [3.5.3.1] | 0 (0%) | 1 (00.05%) |
Количество белков в двух протеомах различается больше чем в 2 раза. Поэтому, очевидно, сравнивать нужно относительные значения (процентное содержание) белков в функциональных группах, а не абсолютные. Первые две функциональнные группы (трансмембранные белки и ферменты) были зафиксированы в задании. Из таблицы видно, что количество трансмембранных белков в двух протеомах примерно одинаковое. Количество ферментов у E.coli больше - 38.17% против 29.06%. Это может объясняться недостаточной изученностью Helicobacter typhlonius - возможно некоторые ферментативные функции белков не были обнаружены.
В качестве третьей группы на выбор сначала был взят фермент уреаза. Уреаза [EC: 3.5.1.5] - фермент, катализирующий гидролиз мочевины с образованием NH3 и CO2. У близкородственный организмов, например у H.pylori, данный фермент играет ключевую роль в жизненном цикле. Для того чтобы существовать в кислой среде желудка, бактерия продуцирует большое количество уреазы, которая в свою очередь способствует выработке аммиака, тем самым понижая кислотность окружающей среды.[1] У H.typhlonius при этом уреазы в протеоме не обнаружено (поиск производился с помощью запроса :"Urease [3.5.1.5]" organism:"Helicobacter typhlonius [76936]" proteome:up000064525). Возможно это также связано с плохой изученностью рассматриваемой бактерии. Поэтому в качестве третьей функциональной группы был взят фермент аргиназа (EC: 3.5.3.1), который есть в протеоме H.typhlonius. Этот белок катализирует реакцию гидролиза аргинина до мочевины и орнитина и является последним ферментом в цикле мочевины.[2] Возможно в дальнейшем мочевина H.typhlonius может способствовать нейтрализации окружающей среды на подобии механизма, изученного у H.pylori, у которой аргиназа также присутствует в протеоме.
annotation:(type:transmem) AND organism:"Helicobacter typhlonius [76936]" AND proteome:up000064525
annotation:(type:transmem) AND organism:"Helicobacter typhlonius [76936]" proteome:up000064525 ec:*
ec:3.5.3.1 AND organism:"Helicobacter typhlonius [76936]" AND proteome:up000064525
Примечание: поиск для E.coli был выполнен аналогично
В данной части практикума с помощью команд из EMBOSS нужно было получить последовательность одного из зрелых белков коронавируса SARS, которые получаются в результате гидролиза полипротеина 1ab (UniProt AC P0C6X7). Разберем каждую команду поэтапно.
lidia@kodomo:~/public_html/term2/proteomes$ entret 'sw:P0C6X7' '1ab.txt'
Retrieve sequence entries from flatfile databases and files
lidia@kodomo:~/public_html/term2/proteomes$ grep 'FT CHAIN' 1ab.txt
FT CHAIN 1..180
FT CHAIN 181..818
FT CHAIN 819..2740
FT CHAIN 2741..3240
FT CHAIN 3241..3546
FT CHAIN 3547..3836
FT CHAIN 3837..3919
FT CHAIN 3920..4117
FT CHAIN 4118..4230
FT CHAIN 4231..4369
FT CHAIN 4370..5301
FT CHAIN 5302..5902
FT CHAIN 5903..6429
FT CHAIN 6430..6775
FT CHAIN 6776..7073
lidia@kodomo:~/public_html/term2/proteomes$ seqret 'sw:P0C6X7[5903:6429]' 'protein.fasta'
Read and write (return) sequences
Далее нужно было найти название выбранного белка и отредактировать заголовок сохраненного fasta-файла. Идентификаторы последовательнстей и названия каждого из белков описаны в строках, слудующих после строки FT CHAIN. Для того чтобы быстро вывести необходимые данные в командной строке, воспользуемся следующей командой:
lidia@kodomo:~/public_html/term2/proteomes$ grep -A 3 'FT CHAIN 5903..6429' '1ab.txt'
FT CHAIN 5903..6429
FT /note="Guanine-N7 methyltransferase"
FT /evidence="ECO:0000250"
FT /id="PRO_0000037320"
Далее с помощью команды dascseq из EMBOSS было отредактировано имя файла.
lidia@kodomo:~/public_html/term2/proteomes$ descseq -seq protein.fasta -out protein.fasta -name "Guanine-N7 methyltransferase PRO_0000037320"
Alter the name or description of a sequence.
Утилита compseq позволяет вычислять состав "слов" заданной длины (димер, тример и т.д.). Длина "слова" указывается пользователем. В выходной файл записиваются уникальные слова, их наблюдаемое количество, наблюдаемая частота, ожидаемая частота. На вход команде сначала подается файл с последовательностью, далее с помощью атрибута -word указывается длина слова (целое число) и после указывают имя файла, куда будут записаны выходные данные. Примечание: для белоковой последовательности compseq максимум может искать слова длины 4, для нуклеотидной - длины 6. Более подробное описание утилиты можно найти на этом сайте.
lidia@kodomo:~/public_html/term2/proteomes$ compseq 'protein.fasta' -word 2 result.txt
Calculate the composition of unique words in sequences
1. Mobley, Harry L. T. (1 January 2001). Mobley, Harry LT; Mendz, George L.; Hazell, Stuart L. (eds.). Helicobacter pylori: Physiology and Genetics. Washington (DC): ASM Press. ISBN 978-1-55581-213-3. PMID 21290719. Ссылка на источник.