Практикум №9

UniProt Proteomes. EMBOSS

1. Сравнение протеомов

В этом задании мы вновь возвращаемся к бактерии, о которой я делал обзор в 1-м семестре. При помощи UniProt proteomes я нашёл, что бактерия Helicobacter canadensis MIT 98-5491 strain NCTC 13241 имеет Proteome ID UP000007032. Мне необходимо сравнить доли, которые составляют белки некоторой "функциональной группы" (трансмембранные белки, ферменты) в протеоме "моей" бакетрии и референсом протеоме наиболее хорошо изученной бактерии Escherichia coli strain K-12. Её Proteome Id -UP000000625. Ниже привожу таблицу запросов и результатов. Воспользуюсь сокращением "un" = "unreviewed" и "r" = "reviewed".

Таблица 1 Сравнение E.coli и H.canadensis
Функциональная группа Результат для E.coli Результат для H.canadensis
Proteome ID UP000000625 UP000007032
Общее количество белков (organism:"") 6054 (r) and 5785 (un) 1536 (un)
Траснсмембранные (по запросу annotation:(type:transmem) AND proteome:[ID]) 946 (r) (21,54%) 280 (un) (6,38%)
Ферменты (по запросу EC:* AND proteome:[ID]) 1676 (r) (38,17%) 392 (un) (25,54%)
Уреазы (по запросу Urease AND proteome:[ID]) 1 (r) (0,02%) 1 (un) (0,065%)

Из таблицы видно, что ни один белок не был проверен для H.canadensis, чего не скажешь о E.coli. Это логично, учитывая, что H. canadensis была открыта не так давно. Из-за большой (почти в 3 раза) разницы в количестве белков было принято решение сравнивать процентные доли, а не численные значения. H. canadensis проигрывает почти в любой "функциональной группе", возможно это связано с недостатком данных и неизученностью H. canadensis. Количество Уреаз численно равно. Я выбрал именно уреазы, так как выживать в кислой среде желудка помогают именно они. Бактерии рода Helicobacter забиваются в стенки слизистой желудка и окружают себя ими, защищая от пагубного воздействия кислотной среды. Возможно, не все уреазы H.canadensis были открыты, так как я нашёл огромное количество белков, не отнесённых никуда (Uncharacterized protein 332 штуки). А вот у известного ближайшего родственника, H. pylori их целых 18, что не удивительно.

2. Получение зрелых белков одного из коронавирусов

За окном эпидемия SARS Covid-19, так что нам задали получить последовательность одного из зрелых белков его родственника, который получается в процессе гидролиза полипротеина 1ab, в формате fasta (я оказался в удачной группе). Чтобы получить файл, я использовал следующие команды:

entret 'sw:P0C6X7' 'SARS.entret'
grep 'FT   CHAIN' SARS.entret
seqret 'SARS.entret[5302:5902]' 'protein.fasta'

FT   CHAIN           1..180
FT   CHAIN           181..818
FT   CHAIN           819..2740
FT   CHAIN           2741..3240
FT   CHAIN           3241..3546
FT   CHAIN           3547..3836
FT   CHAIN           3837..3919
FT   CHAIN           3920..4117
FT   CHAIN           4118..4230
FT   CHAIN           4231..4369
FT   CHAIN           4370..5301
FT   CHAIN           5302..5902
FT   CHAIN           5903..6429
FT   CHAIN           6430..6775
FT   CHAIN           6776..7073 

Я выбрал фрагмент с названием Хеликаза. При помощи текстового редактора был исправлен файл. Ссылки на файлы:

1. SARS.entret

2. protein.fasta

3. Описание утилиты из пакета EMBOSS

Infoseq отображает на экране основную информацию об одной или нескольких входных последовательностях. Это включает адрес последовательности (USA), имя, номер доступа, тип (нуклеиновый или белковый), длину, процентное соотношение C + G и описание. Та же самая информация может быть записана в выходной файл, который (необязательно) может быть отформатирован в таблице HTML. Пример запуска:

vitbuev@kodomo:~/public_html/terms/term2/pr12$ infoseq P53_Human.fasta.txt
Display basic information about sequences
USA                      Database  Name             Accession      Type       Organism Length                     Description
fasta::P53_Human.fasta.txt:P53_HUMAN -              P53_HUMAN      P04637         P    393                        Cellular tumor antigen p53 OS=Homo sapiens OX=9606 GN=TP53 PE=1 SV=4