У выбранной бактерии Pseudoalteromonas arctica не было референсных протеомов, поэтому я решил найти бактерию из того же рода. Выбор пал на Pseudoalteromonas citrea DSM 8771 и ее протеом UP000016487, потому что он референсный и BUSCO (Complete %) составляет 100. Для сравнения я решил взять фотосинтезирующую бактерию. Среди родственных подходящих вариантов не нашлось, поэтому выбрал референсный протеом Cereibacter sphaeroides (UP000002703).
В целом, протеом Cereibacter sphaeroides (UP000002703) лучше аннотирован, не смотря на чуть более низкое значение BUSCO (Complete %).
Для скачивания использовал следующие команды:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000016487)' -O UP000016487.swiss.gz
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000002703)' -O UP000002703.swiss.gz
Для поиска использовал соответствующие запросы в Uniprot:
Для ферментов (proteome:UP000016487) AND (ec:*)
Для трансмембранных (proteome:UP000016487) AND (ft_transmem:*)
Для поиска белков, участвующих в фотосинтезе: (proteome:UP000016487) AND (keyword:KW-0602)
Аналогично для другого протеома.
Функциональная группа белков | Pseudoalteromonas citrea | Cereibacter sphaeroides |
---|---|---|
Трансмембранные | 867 | 835 |
Ферменты | 810 | 1187 |
Связанные с фотосинтезом | 1 | 31 |
ID соответствующего ключевого слова (Photosynthesis) нашел с помощью базы данных keywords в uniprot. В случае с фотосинтезирующими белками получен закономерный результат, хотя один белок у нефотосинтезирующей бактерии вызвал вопросы. Его статус unreviewed, annotation score 1/5, protein existence - predicted (то есть нет доказательства существования на уровне белка/транскрипта/гомологии). В соотствующей записи UniProtKB в разделе CC указано, что последовательность получена из EMBL/GenBank/DDBJ (в данном случае EMBL) whole genome shotgun (WGS) entry и является предварительной информацией.
Для начала я решил подсчитать в каждом файле количество строк, где есть слово 'PubMed', c помощью команд:
zgrep 'PubMed' UP000002703.swiss.gz|wc -lОднако я получил неожиданные результаты, оказалось, что в протеоме, который мне показался лучше аннотированным (UP000002703) было 597 соответствующих строк, а в другом - 4457. Поэтому я решил посмотреть количество уникальных строк с помощью команд:
zgrep 'PubMed' UP000002703.swiss.gz|sort -u|wc -lОказалось, что в хуже аннотированном протеоме (UP000016487) встречается только одна уникальная строчка, содержащая 'Pubmed' - это строка RX, где дана ссылка на статью с секвенированным геномом. С вторым файлом дело обстоит интереснее, здесь встретилось 299 уникальных строки, содержащих 'Pubmed'. Однако это количество не равно количеству уникальных статей, потому что в разных строчках могут быть ссылки на одинаковые статьи. С помощью команды:
zgrep '^RX' UP000002703.swiss.gz|grep 'PubMed'|sort -u|wc -lя узнал, что в файле содержится 92 уникальных строки, начинающхся с RX и содержащих 'PubMed', причем здесь статьи точно не повторяются. Чтобы убедиться в том, что все уникальные статьи содержатся в строчках RX, я написал код на Python, который считает, сколько уникальных идентификаторов PubMed встречается всего в файле (Ссылка на код). Оказалось, что всего их 92, а значит все они точно есть в строках RX. Итого, можно сказать, что для оценки качества протеомов по количеству статей в PubMed, нужно смотреть не общее количество их id, а либо количество уникальных id, либо количество уникальных строк, содержащих "Pubmed" (как мне кажется, даже с учетом того, что статьи могут повторяться, их количество все равно характеризует качество аннотации)