Задание 1
Идентификатор сборки RefSeq: GCF_022846375.1
Ссылка на NCBI Datasets Genome
Идентификатор INSDC: GCA_022846375.1
Поисковой запрос: "(genome_assembly:GCA_022846375.1)"
Proteome ID: UP000831120
Данный протеом принадлежит штамму Thermus brockianus (SNM4-1)
Статус протеома: Excluded (delayed for further analysis); то есть протеом исключён для дальнейшего анализа.
Задание 2
Описанный выше протеом (Thermus brockianus SNM4-1) не является референсным, плюс ещё и удалён, а при поиске через Taxon ID: "(organism_id:56956)" - находится ещё и другой протеом (Thermus brockianus GE-1), но и он тоже не является референсным.
Поэтому я должен выбрать референсный протеом не среди вида, а среди родительского таксона - рода Thermus. Среди рода имеется только один единственный референсный протеом, принадлежащий виду Thermus thermophilus (strain ATCC 27634 / DSM 579 / HB8), и он состоит из 2227 белков. Его я и выбрал для анализа.
Команда для скачивания протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000532' -O AC.swiss.gz
Задание 3
Запрос UniProtKB:"(proteome:UP000000532) AND (ec:*)" - позволяет найти все ферменты, которые имеют хоть какую-нибудь ферментативную классификацию (так как стоит *). По этому запросу выдало 554 белка.
Запрос UniProtKB:"(proteome:UP000000532) AND (cc_catalytic_activity:*)" - позволяет найти все ферменты, у которых аннотирована каталитическая активность По этому запросу выдало 488 белков. То есть можно сделать вывод, что некоторые белки классифицированы как ферменты, но у них не аннотирована или неизвестна каталитическая активность.
Я решил написать скрипты на Python (скрипты и команды для запуска внутри текстового файла), которые позволили бы определить количество белков с ферментативной активностью.
Первый скрипт считает все такие белки, у которых в строках, начинающихся на "DE" имеется фрагмент "EC=". Таких белков нашлось 549, что на 5 меньше, чем при помощи поиска в UniProtKB. То есть у некоторых белков, которые имеют ферментативную классификацию в UniProtKB, в строках, начинающихся на DE, может быть не написана ферментативная классификация при помощи "EC=" или написана, но как-то по-другому, из-за чего мой скрипт их не может найти.
Второй скрипт считает все такие белки, у которых в строках, начинающихся на "CC" имеется фрагмент "-!- CATALYTIC ACTIVITY:". Таких белков нашлось столько же, сколько и при поиске в UniProtKB.
Разница между поиском по ферментативной классификации и каталитической активностью +-64 белка. Точность не очень высокая, но это нам позволяет определить примерное процентное соотношение ферментов. По расчётам оно равно 22-25%
Задание 4
По конвейеру:
zcat UP000000532.swiss.gz | seqret -filter -sbegin 1 -send 1 | grep -v ^'>' | uniq -c | less
Мной было найдено, что все первые аминокислоты в белках являются метионинами. Это может нам о говорить нам о том, что у данной бактерии не происходят посттрансляционные модификации N-конца белка, связанные с отщеплением первых аминокислот, а также говорить о том, что у данной бактерии не обнаружено альтернативных старт-кодонов. У многих секретируемых белков в связи с отрезанием сигнального пептида на N-конце начальная аминокислота не будет метионином. Раз у нашей бактерии все белки начинаются с метионина, то и такой ситуации с отрезанием сигнального пептида не происходит.
После выполнения 3-его задания мне стало интересно, что это за 5 белков, которые имеют ферментативную классификацию, которая она не обозначена в DE. При помощи скрипта на Python я обнаружил эти белки (Оним имеют ID: Q5SIC8_THET8; Q5SIM6_THET8; Q5SLD1_THET8; Q5SJW2_THET8; Q5SL37_THET8). Действительно, у них есть ферментативная классификация, однако она находится не в пункте DE, а в пункте CC, вместе с каталитической активностью. Это полезная информация, которая может пригодится мне в будущем при анализе белков: не обязательно ферментативная классификация находится строках с "DE". Также это говорит о неполноте аннотаций данных белков.