Практикум 8
Идентификатор сборки RefSeq: GCF_003065425. Идентификатор последней версии сборки INSDC: GCA_003065425.1. Поисковой запрос: (genome_assembly:GCA_003065425.1). Идентификатор протеома: UP000244325. Статус: Redundant proteome. Исключён в пользу: UP000244962.
Референсный протеом: UP000244962 поисковой запрос, который выдал данный геном: (taxonomy_id:2079792) комнада для bash, которую я использовал для скачивания протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000244962)' -O UP000244962.swiss.gz
Поисковой запрос (proteome:UP000244962) AND (ec:*) выдаёт 582 результата поиска. Команда в bash zgrep -c 'CATALYTIC ACTIVITY' UP000244962.swiss.gz выдаёт 594 результата. Различия в результатах этих двух методов могут обуславливаться тем, что в описании одного белка может несколько раз встречаться сочетание 'CATALYTIC ACTIVITY'.
Я решил исследовать протеом Mycetocola zhujimingii на наличие белков, начинающихся не с аминокислоты метионин. Конвейер bash: zgrep -A 1 "^SQ" UP000244962.swiss.gz | grep "^ " | grep -v " M" | wc -l. В результате во всём протеоме нашлось 5 белков, начинающихся не с метионина. В поле DE этих белков (оказывается, там много интересного пишут) есть строчка 'Flags: Fragment', из чего можно догадаться, что это лишь фрагменты белков, поэтому с метионина им начинаться необязательно.