Итак, в прошлом семестре я писал мини-обзор по архее Halanaeroarchaeum
sulfurireducens, штамм M27-SA2. Геномная сборка из базы RefSeq имела
название GCF_001305655.1. Статус протеома этого штамма - other, т.к. есть
штамм HSR2, и он считается референсным. Ссылка на страницу из базы:
https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001305655.1/
Идентификатором последней версии сборки INSDC является GCA_001305655.1. По
нему же я и делал запрос в UniProt Proteomes:
Ну и,собственно, идентификатор протеома и его статус (ID: UP000060390,
status: Other proteome):
Референсный протеом я нашёл просто указав поиск по организму:
Чтобы скачать референсный протеом, воспользовался командой
Для оценки количества ферментов я воспользовался такими параметрами
поиска:
В итоге было получено 599 результатов. Поиск по двум параметрам позволил
охватить и белки с явно указанной ферментативной функцией (EC), и с общей
каталитической активностью (GO)
и получил результат в 881 белок. Идентификатор GO с таким номером вроде
как отвечает вприцнипе за каталитическую активность белка, от добавления
этого параметра прибавляется 2 к общему значению, столько же, сколько если
бы я искал через UniProtKB. Наверное, это важно)
Я предположу, что количество, полученное при расширенном поиске на сайте,
более верное. Всё-таки алгоритмы TrEMBL должны быть поумнее меня и моих
скриптов bash.
Я решил проверить, все ли белки начинаются с метионина при помощи этой
команды:
т.е. вывел все первые буквы последовательностей и обнулял
последовательность каждый раз после нахождения. В итоге белков,
начинающихся не с метионина, не оказалось. О чём бы это могло говорить,
если бы такие были? О каких-либо посттрансляционных модификациях, или что
в аннотациях присутствуют зрелые формы белков, с отщеплённым концом.
Обычно это мембранные или секретируемые белки