Поиск протеома, соответствующего геномной сборке
Ниже перечислены индентификаторы геномной сборки и протеома Cysteiniphilum sp. QT6929, статус протеома, а также ссылки на соответствующие страницы из баз данных.
1. Идентификатор сборки RefSeq: GCF_030035755.1;
2. Ссылка на страницу из базы NCBI Datasets Genome, которая соответствует этой сборке;
3. Идентификатор последней версии сборки INSDC: GCA_030035755.1;
4. Поисковый запрос по UniProt Proteomes, который выдал протеом: (genome_assembly:GCA_000026045.1). Ссылка на результат запроса;
5. Идентификатор протеома: UP001225964;
6. Статус протеома: исключенный (Status: Excluded (delayed for further analysis)).
Поиск и скачивание референсного протеома
Так как протеом, соответствующий геномной сборке рассматриваемой бактерии, не является референсным, то есть необходимость продолжать поиск протеомов из того же таксона или таксонов более высокого ранга. Был произведен поиск в роде Cysteiniphilum В результате поиска был найдн один референсный протеом у вида того же рода. Идентификатор протеома: UP000636949.
Команда для скачивания: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000636949%29%29' -O UP000636949.swiss.gz
Оценка числа ферментов
Для оценки количества ферментов в протеоме рассматриваемой бактерии Cysteiniphilum sp. QT6929 был использован следующий поисковый запрос: (organism_id:2056700) AND (proteome:UP000636949) AND (ec:*). В результате был выявлен 565 белок, который обладает ферментативной активностью, так как EC-коды указываются только лишь в аннотациях подобных белков.
Оценка числа белков, содержащих альфа-спирали
Цель задания — разобраться в устройстве записей UniProtKB и понять особенности анализа белковых аннотаций. В работе рассматривается поле FT (Feature Table), где указаны локальные особенности белков, в частности ключи HELIX (альфа-спирали) и TRANSMEM (трансмембранные участки, которые часто, но не всегда являются альфа-спиралями). Необходимо с помощью Python-скрипта или bash-конвейера подсчитать, сколько записей содержат HELIX и сколько — TRANSMEM, затем сравнить результаты и оценить их корректность. Важно определить, есть ли противоречия между полученными значениями и объяснить возможные причины расхождений. Подсчёт вручную запрещён, используемый код нужно привести в отчёте. Для выполнения задания следует опираться на документацию UniProt, особенно на описание поля FT. В качестве примера использована команда
zcat UP000636949.swiss.gz | grep -E 'TRANSMEM|HELIX' | sort -u | wc -l , которая даёт результат 1988