Задание 1
Идентификатор сборки RefSeq: GCF_022846375.1
Ссылка на NCBI Datasets Genome
Идентификатор INSDC: GCA_022846375.1
Поисковой запрос: "(genome_assembly:GCA_022846375.1)"
Proteome ID: UP000831120
Данный протеом принадлежит штамму Thermus brockianus (SNM4-1)
Статус протеома: Excluded (delayed for further analysis); то есть протеом исключён для дальнейшего анализа.
Задание 2
Описанный выше протеом (Thermus brockianus SNM4-1) не является референсным, плюс ещё и удалён, а при поиске через Taxon ID: "(organism_id:56956)" - находится ещё и другой протеом (Thermus brockianus GE-1), но и он тоже не является референсным.
Поэтому я должен выбрать референсный протеом не вида, а родительского таксона - рода Thermus. Мною было замечено, что протеом штамма Thermus brockianus GE-1 является частью пан-протеома Thermus thermophilus (strain ATCC 27634 / DSM 579 / HB8), то есть этот пан-протеом будет наиболее близок к изначальному, к тому же он является референсным, поэтому я его и выбрал. Он состоит из 2227 белков.
Задание 3
Запрос UniProtKB:"(proteome:UP000000532) AND (ec:*)" - позволяет найти все ферменты, которые имеют хоть какую-нибудь ферментативную классификацию (так как стоит *). По этому запросу выдало 554 белка.
Запрос UniProtKB:"(proteome:UP000000532) AND (cc_catalytic_activity:*)" - позволяет найти все ферменты, у которых аннотирована каталитическая активность По этому запросу выдало 488 белков. То есть можно сделать вывод, что некоторые белки классифицированы как ферменты, но у них не аннотирована или неизвестна каталитическая активность.
Я решил написать скрипты на Python (скрипты и команды для запуска внутри текстового файла), которые позволили бы определить количество белков с ферментативной активностью.
Первый скрипт считает все такие белки, у которых в строках, начинающихся на "DE" имеется фрагмент "EC=". Таких белков нашлось 549, что на 5 меньше, чем при помощи поиска в UniProtKB. То есть у некоторых белков, которые имеют ферментативную классификацию в UniProtKB, в строках, начинающихся на DE, может быть не написана ферментативная классификация при помощи "EC=" или написана, но как-то по-другому, из-за чего мой скрипт их не может найти.
Второй скрипт считает все такие белки, у которых в строках, начинающихся на "CC" имеется фрагмент "-!- CATALYTIC ACTIVITY:". Таких белков нашлось столько же, сколько и при поиске в UniProtKB.
Разница между поиском по ферментативной классификации и каталитической активностью +-64 белка. Точность не очень высокая, но это нам позволяет определить примерное процентное соотношение ферментов. По расчётам оно равно 22-25%
Задание 4
По конвейеру:
zcat UP000000532.swiss.gz | seqret -filter | grep ^'>' -A 1 | grep -v ^'>'| cut -c 1 | sort | uniq -c | less
Мной было найдено, что все первые аминокислоты в белках являются метионинами.
После выполнения 3-его задания мне стало интересно, что это за 5 белков, которые имеют ферментативную классификацию, которая она не обозначена в DE. При помощи скрипта на Python я обнаружил эти белки (Оним имеют ID: Q5SIC8_THET8; Q5SIM6_THET8; Q5SLD1_THET8; Q5SJW2_THET8; Q5SL37_THET8). Действительно, у них есть ферментативная классификация, однако она находится не в пункте DE, а в пункте CC, вместе с каталитической активностью. Это полезная информация, которая может пригодится мне в будущем при анализе белков: не обязательно ферментативная классификация находится строках с "DE". Также это говорит о неполноте аннотаций данных белков.