Протеомы в UniProt

Задание 1

Геном Achromobacter xylosoxidans, который я анализировала в прошлом семестре, имеет идентификатор GCF_016728825.1 в базе данных RefSeq. Поиск по NCBI Datasets Genome вывел на страницу, из содержания которой я узнала, что последняя версия этой сборки имеет код INSDC GCA_016728825.1. Cоответствующий протеом в UniProt Proteomes я нашла по поисковому запросу "(genome_assembly:GCA_016728825.1)". Этот протеом имеет идентификатор UP000596189 и относится к избыточным (заменен UP001141992).

Задание 2

Поиск по запросу "(organism_id:85698) AND (proteome_type:1)" не дал результатов, что означает, что для данного вида нет референсного протеома. Для рода Achromobacter я нашла ("(taxonomy_id:222) AND (proteome_type:1)") два референсных протеома и выбрала тот (UP000494272), пан-протеом которого содержит белки протеома UP001141992, принадлежащего виду Achromobacter xylosoxidans. Этот референсный протеом я скачала с помощью команды "wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000494272&format=swiss&compressed=true' -O term2/pr8/UP000494272.swiss.gz".

Задание 3

  1. Исходя из предположения, что каждому ферменту должен быть присвоен код EC, я ввела поисковвый запрос "(proteome:UP000494272) AND (ec:*)", по которому нашлось 1779 результатов (примерно 32% от 5620 белков протеома).

  2. Конвейером "zcat UP000494272.swiss.gz | grep 'RecName' | grep -с 'ase\b' " я посчитала белки, рекомендованное имя которых заканчивается на "-аза". Их оказалось 1520, что приближается к результату, полученному предыдущим способом, однако предсказуемо меньше, так как не все белки, проявляющие ферментативную активность, имеют данное окончание.

  3. Наконец с помощью команды "zgrep -c 'CATALYTIC ACTIVITY' UP000494272.swiss.gz" я узнала, что записи 950 белков содержат комментарии о каталитической активности. Можно предположить, что такое малое число связано с неполнотой автоматической аннотации (все записи белков протеома лежат в TrEMBL, как можно убедиться с помощью поискового запроса "(proteome:UP000494272) AND (reviewed:false)").

Задание 4

Я, до заглядывания в подсказки (честно!), решила проверить, все ли белки изучаемого мной протеома начинаются с метионина. Конвейер "zcat UP000494272.swiss.gz | seqret -filter | grep -A 1 '^>' | grep -v '^>' | grep -c '^M' " выдал число 5620, равное количеству белков в протеоме. Это был ожидаемый результат, потому что, я полагаю, процедура поиска открытых рамок считывания в геноме предполагает наличие метионина на первой позиции.

Применение конвейера "zgrep '^PE' UP000494272.swiss.gz | sort | uniq -c" позволило оценить характер распределения белков протеома по степени достоверности их существования:

Получается, что ни один из белков этого протеома не был изучен непосредственно на уровне белка. Кроме того, бóльшую часть протеома составляют белки, для которых не найдены гомологи, что также свидетельствует о его плохой аннотации.