Идентификатор геномной сборки в RefSeq: GCF_002214585.1
Идентификатор сборки INSDC: GCA_002214585.1
страница из базы NCBI Datasets Genome
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_002214585.1)
Идентификатор протеома: UP000250179
Статус: Other proteome
Для вида референсных протеомов не нашлось, поэтому я ввела следующий запрос: (taxonomy_id:2263) AND (proteome_type:1) AND (cpd:1). Было получено 2 результата и среди них я выбрала протеом (UP000001488) с наиболее высоким показателем BUSCO.
Команда для скачивания: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000001488' -O UP000001488.swiss.gz
Для поиска количества ферментов в протеоме был составлен конвейер: zcat UP000001488.swiss.gz | grep 'ase\>' | grep '^DE'| wc -l (1455 результатов)
И два запроса (proteome:UP000001488) AND (ec:*) (535 результатов) и (proteome:UP000001488) AND (cc_catalytic_activity:*) (311 результатов)
Не все ферменты могут иметь коды EC в UniProt, или могут быть ошибки в аннотациях. Некоторые ферменты могут иметь описание каталитической активности, но не иметь кода EC. Строка, заканчивающаяся на "-ase", не всегда означает фермент. Могут быть другие слова, заканчивающиеся на "-ase", которые не являются ферментами.
Thermococcus profundus - это гипертермофильная бактерия, обитающая в глубоководных гидротермальных источниках, где высокое давление, высокие температуры и высокая концентрация солей. Ионные взаимодействия между заряженными аминокислотами и солями могут способствовать стабилизации структуры белка при высоких температурах. Соли могут "сшивать" различные части белковой молекулы, делая ее более устойчивой к денатурации. Мне захотелось узнать процент содержания аргинина, лизина, гистидина, аспартата и глутамата в Thermococcus profundus. Был составлен скрипт на питоне, который лежит в файле ~/term2/pr8/charged_aa.py
Процент содержания заряженных аминокислот изучаемой археи оказался 27,54. Полученный результат оказался ниже ожидаемого, поскольку для большинства мезофильных организмов находится в районе 25%. В дальнейшем можно было бы взять архею из того же рода, живущую в менее экстремалных условиях, и сравнить состав заряженных аминокислот между гомологичными белками двух видов.