Учебный сайт Лидии Гаркуль

UniProt Proteomes. EMBOSS.

Сравнение протеомов

В данной части практикума было произведено сравнение двух протеомов: протеома Escherichia coli strain K-12 и протеома Helicobacter typhlonius.

Для начала сравним общие данные, предствыленные в таблице 1 (Table. 1.). Как видно из таблицы, протеом E.coli гораздо лучше изучен. Об этом свидительствует процентное соотношение аннотированных белков из базы данных Swiss-Prot и белков из автоматической базы данных TrEMBL. У H.typhlonius аннотированных белков в протеоме нет, в то время как 99.95% белков E.coli имеют аннотацию.

Table. 1. Общие данные.
Организм ID протеома Общее количество белков Количество белков в базе Swiss-Prot
Escherichia coli UP000000625 4,391 4389
Helicobacter typhlonius UP000064525 2,096 0

Далее производим поиск по трем различным функциональным группам. Результаты поиска представлены в таблице 2 (Table. 2.)

Table. 2. Сравнение по "функциональнальным группам". В скобках рядом с количеством указан процент от общего количества белков в соответствующем протеоме.
Функциональная группа Escherichia coli Helicobacter typhlonius
Трансмембранные белки 946 (21.54%) 445 (21.23%)
Ферменты 1676 (38.17%) 609 (29.06%)
Аргиназы [3.5.3.1] 0 (0%) 1 (00.05%)

Количество белков в двух протеомах различается больше чем в 2 раза. Поэтому, очевидно, сравнивать нужно относительные значения (процентное содержание) белков в функциональных группах, а не абсолютные. Первые две функциональнные группы (трансмембранные белки и ферменты) были зафиксированы в задании. Из таблицы видно, что количество трансмембранных белков в двух протеомах примерно одинаковое. Количество ферментов у E.coli больше - 38.17% против 29.06%. Это может объясняться недостаточной изученностью Helicobacter typhlonius - возможно некоторые ферментативные функции белков не были обнаружены.

В качестве третьей группы на выбор сначала был взят фермент уреаза. Уреаза [EC: 3.5.1.5] - фермент, катализирующий гидролиз мочевины с образованием NH3 и CO2. У близкородственный организмов, например у H.pylori, данный фермент играет ключевую роль в жизненном цикле. Для того чтобы существовать в кислой среде желудка, бактерия продуцирует большое количество уреазы, которая в свою очередь способствует выработке аммиака, тем самым понижая кислотность окружающей среды.[1] У H.typhlonius при этом уреазы в протеоме не обнаружено (поиск производился с помощью запроса :"Urease [3.5.1.5]" organism:"Helicobacter typhlonius [76936]" proteome:up000064525). Возможно это также связано с плохой изученностью рассматриваемой бактерии. Поэтому в качестве третьей функциональной группы был взят фермент аргиназа (EC: 3.5.3.1), который есть в протеоме H.typhlonius. Этот белок катализирует реакцию гидролиза аргинина до мочевины и орнитина и является последним ферментом в цикле мочевины.[2] Возможно в дальнейшем мочевина H.typhlonius может способствовать нейтрализации окружающей среды на подобии механизма, изученного у H.pylori, у которой аргиназа также присутствует в протеоме.

Поисковые запрос к UniProtKB

1. Для поиска трансмембранных белков

annotation:(type:transmem) AND organism:"Helicobacter typhlonius [76936]" AND proteome:up000064525

2. Для поиска ферментов

annotation:(type:transmem) AND organism:"Helicobacter typhlonius [76936]" proteome:up000064525 ec:*

3. Для поиска аргиназ

ec:3.5.3.1 AND organism:"Helicobacter typhlonius [76936]" AND proteome:up000064525

Примечание: поиск для E.coli был выполнен аналогично

Получение зрелых белков SARS

В данной части практикума с помощью команд из EMBOSS нужно было получить последовательность одного из зрелых белков коронавируса SARS, которые получаются в результате гидролиза полипротеина 1ab (UniProt AC P0C6X7). Разберем каждую команду поэтапно.

Команды в EMBOSS

1. Cкачивание полной записи для полипротеина из UniProt с помощью entret

lidia@kodomo:~/public_html/term2/proteomes$ entret 'sw:P0C6X7' '1ab.txt'
            Retrieve sequence entries from flatfile databases and files
            

Ссылка на полный файл

2. Получение списка всех участков из таблицы локальных особенностей (FT) с ключом "CHAIN" с помощью grep

lidia@kodomo:~/public_html/term2/proteomes$ grep 'FT   CHAIN' 1ab.txt
            FT   CHAIN           1..180
            FT   CHAIN           181..818
            FT   CHAIN           819..2740
            FT   CHAIN           2741..3240
            FT   CHAIN           3241..3546
            FT   CHAIN           3547..3836
            FT   CHAIN           3837..3919
            FT   CHAIN           3920..4117
            FT   CHAIN           4118..4230
            FT   CHAIN           4231..4369
            FT   CHAIN           4370..5301
            FT   CHAIN           5302..5902
            FT   CHAIN           5903..6429
            FT   CHAIN           6430..6775
            FT   CHAIN           6776..7073
            

3. Cохранение цепи [5903:6429] в формате fasta c помощью seqret

lidia@kodomo:~/public_html/term2/proteomes$ seqret 'sw:P0C6X7[5903:6429]' 'protein.fasta'
            Read and write (return) sequences
            

4. Редактирование строки заголовка fasta-файла

Далее нужно было найти название выбранного белка и отредактировать заголовок сохраненного fasta-файла. Идентификаторы последовательнстей и названия каждого из белков описаны в строках, слудующих после строки FT CHAIN. Для того чтобы быстро вывести необходимые данные в командной строке, воспользуемся следующей командой:

lidia@kodomo:~/public_html/term2/proteomes$ grep -A 3 'FT   CHAIN           5903..6429' '1ab.txt'
            FT   CHAIN           5903..6429
            FT                   /note="Guanine-N7 methyltransferase"
            FT                   /evidence="ECO:0000250"
            FT                   /id="PRO_0000037320"

Далее с помощью команды dascseq из EMBOSS было отредактировано имя файла.

lidia@kodomo:~/public_html/term2/proteomes$ descseq -seq protein.fasta -out protein.fasta -name "Guanine-N7 methyltransferase PRO_0000037320"
                Alter the name or description of a sequence.
                

Ссылка на итоговый файл

3. Описание утилиты compseq из пакета EMBOSS

Утилита compseq позволяет вычислять состав "слов" заданной длины (димер, тример и т.д.). Длина "слова" указывается пользователем. В выходной файл записиваются уникальные слова, их наблюдаемое количество, наблюдаемая частота, ожидаемая частота. На вход команде сначала подается файл с последовательностью, далее с помощью атрибута -word указывается длина слова (целое число) и после указывают имя файла, куда будут записаны выходные данные. Примечание: для белоковой последовательности compseq максимум может искать слова длины 4, для нуклеотидной - длины 6. Более подробное описание утилиты можно найти на этом сайте.

lidia@kodomo:~/public_html/term2/proteomes$ compseq 'protein.fasta' -word 2 result.txt
            Calculate the composition of unique words in sequences
            

Ссылка на получившийся файл.

Литература

1. Mobley, Harry L. T. (1 January 2001). Mobley, Harry LT; Mendz, George L.; Hazell, Stuart L. (eds.). Helicobacter pylori: Physiology and Genetics. Washington (DC): ASM Press. ISBN 978-1-55581-213-3. PMID 21290719. Ссылка на источник.

2. https://en.wikipedia.org/wiki/Arginase