
1. Сравнение протеомов
В этом задании мы вновь возвращаемся к бактерии, о которой я делал обзор в 1-м семестре. При помощи UniProt proteomes я нашёл, что бактерия Helicobacter canadensis MIT 98-5491 strain NCTC 13241 имеет Proteome ID UP000007032. Мне необходимо сравнить доли, которые составляют белки некоторой "функциональной группы" (трансмембранные белки, ферменты) в протеоме "моей" бакетрии и референсом протеоме наиболее хорошо изученной бактерии Escherichia coli strain K-12. Её Proteome Id -UP000000625. Ниже привожу таблицу запросов и результатов. Воспользуюсь сокращением "un" = "unreviewed" и "r" = "reviewed".
Функциональная группа | Результат для E.coli | Результат для H.canadensis |
---|---|---|
Proteome ID | UP000000625 | UP000007032 |
Общее количество белков (organism:"") | 6054 (r) and 5785 (un) | 1536 (un) |
Траснсмембранные (по запросу annotation:(type:transmem) AND proteome:[ID]) | 946 (r) (21,54%) | 280 (un) (6,38%) |
Ферменты (по запросу EC:* AND proteome:[ID]) | 1676 (r) (38,17%) | 392 (un) (25,54%) |
Уреазы (по запросу Urease AND proteome:[ID]) | 1 (r) (0,02%) | 1 (un) (0,065%) |
Из таблицы видно, что ни один белок не был проверен для H.canadensis, чего не скажешь о E.coli. Это логично, учитывая, что H. canadensis была открыта не так давно. Из-за большой (почти в 3 раза) разницы в количестве белков было принято решение сравнивать процентные доли, а не численные значения. H. canadensis проигрывает почти в любой "функциональной группе", возможно это связано с недостатком данных и неизученностью H. canadensis. Количество Уреаз численно равно. Я выбрал именно уреазы, так как выживать в кислой среде желудка помогают именно они. Бактерии рода Helicobacter забиваются в стенки слизистой желудка и окружают себя ими, защищая от пагубного воздействия кислотной среды. Возможно, не все уреазы H.canadensis были открыты, так как я нашёл огромное количество белков, не отнесённых никуда (Uncharacterized protein 332 штуки). А вот у известного ближайшего родственника, H. pylori их целых 18, что не удивительно.
2. Получение зрелых белков одного из коронавирусов
За окном эпидемия SARS Covid-19, так что нам задали получить последовательность одного из зрелых белков его родственника, который получается в процессе гидролиза полипротеина 1ab, в формате fasta (я оказался в удачной группе). Чтобы получить файл, я использовал следующие команды:
entret 'sw:P0C6X7' 'SARS.entret' grep 'FT CHAIN' SARS.entret seqret 'SARS.entret[5302:5902]' 'protein.fasta' FT CHAIN 1..180 FT CHAIN 181..818 FT CHAIN 819..2740 FT CHAIN 2741..3240 FT CHAIN 3241..3546 FT CHAIN 3547..3836 FT CHAIN 3837..3919 FT CHAIN 3920..4117 FT CHAIN 4118..4230 FT CHAIN 4231..4369 FT CHAIN 4370..5301 FT CHAIN 5302..5902 FT CHAIN 5903..6429 FT CHAIN 6430..6775 FT CHAIN 6776..7073
Я выбрал фрагмент с названием Хеликаза. При помощи текстового редактора был исправлен файл. Ссылки на файлы:
1. SARS.entret
3. Описание утилиты из пакета EMBOSS
Infoseq отображает на экране основную информацию об одной или нескольких входных последовательностях. Это включает адрес последовательности (USA), имя, номер доступа, тип (нуклеиновый или белковый), длину, процентное соотношение C + G и описание. Та же самая информация может быть записана в выходной файл, который (необязательно) может быть отформатирован в таблице HTML. Пример запуска:
vitbuev@kodomo:~/public_html/terms/term2/pr12$ infoseq P53_Human.fasta.txt Display basic information about sequences USA Database Name Accession Type Organism Length Description fasta::P53_Human.fasta.txt:P53_HUMAN - P53_HUMAN P04637 P 393 Cellular tumor antigen p53 OS=Homo sapiens OX=9606 GN=TP53 PE=1 SV=4