Практикум 8

Поиск протеома, соответствующего геномной сборке
Идентификатор сборки RefSeq: GCF_000196215.1
Ссылка на страницу из базы NCBI Datasets Genome
Идентификатор сборки INSDC: GCA_000196215.1
Поисковый запрос по UniProt Proteomes: (genome_assembly:GCA_000196215.1)
Идентификатор протеома: UP000002276
Статус: Other proteome
Поиск и скачивание референсного протеома
При поиске референсного протеома для того же вида в Proteomes taxonomy_id:290434 был найден избыточный протеом UP000274630 для UP000002276, поэтому его нельзя использовать в качестве референсного. Далее проводился поиск по таксону, который указан в качестве родительского на странице вида в базе Taxonomy (Borreliella bavariensis, Taxon ID 664662), были получены те же результаты, что и при первом поисковом запросе. Родительская группа для Borreliella bavariensis - Borreliella, Taxon ID 64895. В результате поиска было выдано 159 записей, из которых 1 референсный, 18 прочие протеомы, 131 избыточные и 9 удалённых.
Референсный
Proteome ID: UP000001807, Scientific name: Borreliella burgdorferi, Taxon ID: 224326, CPD: Unknown, BUSCO: C:93.3% (S:93.3% D:0%) F:0% M:6.7%.

Команда в bash для скачивания протеома: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001807)' > UP000001807.swiss.gz
Оценка количества ферментов в протеоме

Поисковый запрос: (proteome:UP000001807) AND ((ec:*) OR (protein_name:*enzyme*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278)) выдал 283 белка, также можно использоать (proteome:UP000001807) и Group by: Enzyme Class 237 белков.

Рис. 1 Деление на группы по классу ферментов среди всех белков

Рис. 2 Результаты поиска белков с ферментативной активностью

Конвейер bash: zcat UP000001807.swiss.gz | grep '^DE' | grep -o 'EC=[1-7.]\+' | cut -d= -f2 | cut -d. -f1 | sort | uniq -c | awk '{print "Класс " $2 ": " $1 " ферментов"}' Данный конвейер выдал 244 уникальных класса фермента, указанных в полях DE записей из протеома.

Рис. 3 Результаты конвейера bash
Результаты, полученные с помощью поискового запроса в UniProtKB и конвейера bash немного отличаются. Такое отличие может быть связано с тем, что UniProtKB постоянно обновляется, а скачанный файл - нет. Конвейер может считать повторяющиеся EC-номера в одном файле. Также UniProtKB иногда объединяет изоформы белка в одну запись, тогда как в файле они могут перечисляться отдельно.
Анализ протеома консольными средствам
В мини-обзоре были описаны белки, участвующие в реализации болезни Лайма. В этом практикуме с помощью команд в bash было проверено все ли эти белки встречаются у Borreliella burgdorferi.
Конвейер bash Выдача (ID белка)
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~/outer surface protein c/ { print id; next }' | sort -u OSPC_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /alpha3-beta1 integrin-binding protein/ { print id; next }' | sort -u O50983_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /oms28/ { print id; next }' | sort -u O50963_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /bb_a07/ { print id; next }' | sort -u O50901_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~/lp6.6 protein/ { print id; next }' | sort -u H7C7L8_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /bb_a14/ { print id; next }' | sort -u LIP14_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /ospa/ { print id; next }' | sort -u OSPA_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /ospb/ { print id; next }' | sort -u OSPB_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /dbpb/ { print id; next }' | sort -u DBPB_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /dbpa/ { print id; next }' | sort -u DBPA_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } (/^DE/ || /^GN/) && tolower($0) ~ /ankyrin/ { print id; next }' | sort -u Y2628_BORBU, Y399_BORBU
zcat UP000001807.swiss.gz | awk '/^ID/ { id = $2 } /^KW|^FT|^CC/ && tolower($0) ~ /virulence/ { print id; next }' | sort -u (важно, что не нужно учитывать регистр слова) BPTA_BORBU, HRPA_BORBU, O50802_BORBU, OSPC_BORBU, PDEB_BORBU
Благодаря последнему конвейеру были найдены дополнительные белки, которые могут участвовать в реализации болезни Лайма (в их описании встречается слово "virulence") : Cyclic di-GMP phosphodiesterase PdeB, Protein BptA, ATP-dependent RNA helicase HrpA.