Практикум №8

1. Выбор протеомов

У выбранной бактерии Pseudoalteromonas arctica не было референсных протеомов, поэтому я решил найти бактерию из того же рода. Выбор пал на Pseudoalteromonas citrea DSM 8771 и ее протеом UP000016487, потому что он референсный и BUSCO (Complete %) составляет 100. Для сравнения я решил взять фотосинтезирующую бактерию. Среди родственных подходящих вариантов не нашлось, поэтому выбрал референсный протеом Cereibacter sphaeroides (UP000002703).

Сравнение качества протеомов:

ID: UP000016487
Status: Reference proteome
Количество белков: 4457
Swiss-prot: 0
CPD: Close to standard (high value)
BUSCO: C:100% (S:99.8% D:0.2%) F:0% M:0%
Proteins with 3D structure: 0
Protein existence: Predicted (2,880), Homology (1,575), Transcript level (2)

ID: UP000002703
Status: Reference proteome
Количество белков: 4285
Swiss-prot: 467
CPD: Standard
BUSCO: C:99.3% (S:98.6% D:0.7%) F:0.1% M:0.6%
Proteins with 3D structure: 61
Protein existence: Predicted (2,571), Homology (1,626), Protein level (85), Transcript level (3)

В целом, протеом Cereibacter sphaeroides (UP000002703) лучше аннотирован, не смотря на чуть более низкое значение BUSCO (Complete %).

Для скачивания использовал следующие команды:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000016487)' -O UP000016487.swiss.gz
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000002703)' -O UP000002703.swiss.gz

2. Сравнение протеомов по представленности определенных групп белков

Для поиска использовал соответствующие запросы в Uniprot:
Для ферментов (proteome:UP000016487) AND (ec:*)
Для трансмембранных (proteome:UP000016487) AND (ft_transmem:*)
Для поиска белков, участвующих в фотосинтезе: (proteome:UP000016487) AND (keyword:KW-0602)
Аналогично для другого протеома.

Функциональная группа белков	Pseudoalteromonas citrea	Cereibacter sphaeroides
Трансмембранные	867	835
Ферменты	810	1187
Связанные с фотосинтезом	1	31

ID соответствующего ключевого слова (Photosynthesis) нашел с помощью базы данных keywords в uniprot. В случае с фотосинтезирующими белками получен закономерный результат, хотя один белок у нефотосинтезирующей бактерии вызвал вопросы. Его статус unreviewed, annotation score 1/5, protein existence - predicted (то есть нет доказательства существования на уровне белка/транскрипта/гомологии). В соотствующей записи UniProtKB в разделе CC указано, что последовательность получена из EMBL/GenBank/DDBJ (в данном случае EMBL) whole genome shotgun (WGS) entry и является предварительной информацией.

3. Сравнение протеомов по количеству ссылок на PubMed

Для начала я решил подсчитать в каждом файле количество строк, где есть слово 'PubMed', c помощью команд:

zgrep 'PubMed' UP000002703.swiss.gz|wc -l
zgrep 'PubMed' UP000016487.swiss.gz|wc -l

Однако я получил неожиданные результаты, оказалось, что в протеоме, который мне показался лучше аннотированным (UP000002703) было 597 соответствующих строк, а в другом - 4457. Поэтому я решил посмотреть количество уникальных строк с помощью команд:

zgrep 'PubMed' UP000002703.swiss.gz|sort -u|wc -l
zgrep 'PubMed' UP000016487.swiss.gz|sort -u|wc -l

Оказалось, что в хуже аннотированном протеоме (UP000016487) встречается только одна уникальная строчка, содержащая 'Pubmed' - это строка RX, где дана ссылка на статью с секвенированным геномом. С вторым файлом дело обстоит интереснее, здесь встретилось 299 уникальных строки, содержащих 'Pubmed'. Однако это количество не равно количеству уникальных статей, потому что в разных строчках могут быть ссылки на одинаковые статьи. С помощью команды:

zgrep '^RX' UP000002703.swiss.gz|grep 'PubMed'|sort -u|wc -l

я узнал, что в файле содержится 92 уникальных строки, начинающхся с RX и содержащих 'PubMed', причем здесь статьи точно не повторяются. Чтобы убедиться в том, что все уникальные статьи содержатся в строчках RX, я написал код на Python, который считает, сколько уникальных идентификаторов PubMed встречается всего в файле (Ссылка на код). Оказалось, что всего их 92, а значит все они точно есть в строках RX. Итого, можно сказать, что для оценки качества протеомов по количеству статей в PubMed, нужно смотреть не общее количество их id, а либо количество уникальных id, либо количество уникальных строк, содержащих "Pubmed" (как мне кажется, даже с учетом того, что статьи могут повторяться, их количество все равно характеризует качество аннотации)