Балакина Прак8 Uniprot Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

Идентификатор сборки RefSeq — GCF_016415705.1
Ссылка на страницу из базы NCBI Datasets Genome
Идентификатор сборки INSDC — GCA_016415705.1
Поисковый запрос по UniProt Proteomes — (genome_assembly:GCA_016415705.1)
Идентификатор протеома — UP000595603
Статус протеома — Избыточный протеом
Протеом, в пользу которого исключили из Proteomes — UP000245649

2. Поиск и скачивание референсного протеома

Протеом, соответсвующий геномной сборки бактрерии Klebsiella quasipneumoniae не является референсным, поэтому поиск протеома для дальнейшего анализа проводился по родительскому таксону — Klebsiella (Taxon ID — 570).
Поисковый запрос в Uniprot Proteomes: (taxonomy_id:570) AND (proteome_type:1)
Из полученного перечня был выбран протеом с пометкой "Standard".
Идентификатор выбранного протеома — UP000789617
Команда для скачивания архива протеома:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000789617' -O UP000789617.swiss.gz

3. Оценка количества ферментов в протеоме

Запрос в UniprotKB — (proteome:UP000789617) AND ((ec:*) OR (cc_catalytic_activity:*))
Найдено — 1462 фермента
Конвейер bash — zgrep -B50 -e '^CC -!- CATALYTIC ACTIVITY:' -e 'EC=' UP*| grep '^ID'|wc -l
Найдено — 1451 фермент

Численные оценки количества ферментов в протеоме получились достаточно схожими. Небольшая разница может быть связана с особенностями работы командной строки: в отличие от UniProt, который ищет по полным белковым записям, конвейер работает со строками. Из-за этого часть белков может быть посчитана дважды, а какие-то — наоборот пропущены (если нужная информация оказывается вне диапазона выбранных строк). Чтобы избежать повторного подсчёта, я пыталась извлекать ID белка. Использовался параметр -B50, который рассчитан на то, что 50 строк хватит для включения строки ID, однако, возможно, в некоторых случаях это число оказалось недостаточным, и записи не были учтены.

4. Анализ протеома консольными средствами

В рамках миниобзора в прошлом семестре я изучала металло-бета-лактамазы бактрерии Klebsiella quasipneumoniae. Поэтому протеом бактерии Klebsiella variicola я также решила проанализировать с точки зрения металло-бета-лактамаз (MBL). Я предположила, что последовательности MBL должны содержать повышенные частоты аминокислот, которые чаще всего координируют ионы цинка (основной лиганд MBL) — His, Cys и Asp. С помощью конвейеров bash и скрипта на python были получены частоты встречаемости аминокислот в последовательностях MBL. Однако гипотеза не оправдалась, и частоты аминокислот в MBL почти не отличались от соответсвующих частот среди всех белков протеома. Вероятно, в этом протеоме не так много MBL — 13, поэтому такой анализ нерепрезентативен. Возможно, дело в том, что лигандов не так много и от этого частоты встречаемости и не должны меняться в принципе.

Как проводился анализ:

Создавался fasta файл из архива формата swiss. Я это делала через временный файл tmp_input.swiss, который удалялся сразу после создания fasta. Использовала команду seqret из пакета EMBOSS.
zcat UP000789617.swiss.gz > tmp_input.swiss
seqret -sequence tmp_input.swiss -outseq all.fasta
rm tmp_input.swiss
Формировались файлы со строками, содержащими ID всех белков протеома и отдельно металло-бета-лактамаз.
zgrep -v '^RT' UP*|grep -B50 -i -e 'Metallo-b' -e ' MBL '|grep '^ID' > id_mbl.txt
zgrep '^ID' UP* > id_all.txt
Формировались файлы содержащие только список ID всех белков и отдельно MBL.
tr -s ' ' < id_mbl.txt | cut -d' ' -f2 > only_id_mbl.txt
tr -s ' ' < id_all.txt | cut -d' ' -f2 > only_id_all.txt
Создавался файл содержащий только последовательности всех белков.
grep -v -f only_id_all.txt all.fasta > all_seq.fasta
Аналогичный файл с последовательностями MBL создавался с помощью кода на python.
С помощью chmod давалось разрешение на запускание кода:
chmod +x extract_seq_by_ids.py
Сам код из командной строки запускался:
python3 extract_seq_by_ids.py
С помощью команды compseq пакета EMBOSS подсчитывались частоты аминокислот среди последовательностей всех белков и отдельно MBL.
compseq -sequence mbl_seq.fasta -word 1 -outfile aa_freq_mbl.txt
compseq -sequence all_seq.fasta -word 1 -outfile aa_freq_all.txt
Находили строки с частотами интересующих нас аминокислот.
grep -e '^H' -e '^C' -e '^D' aa_freq_all.txt
grep -e '^H' -e '^C' -e '^D' aa_freq_mbl.txt

Сравниваем полученные частоты, видим, что частоты в MBL больше, но совсем незначительно.

	Количество во всех белках	Частота во всех белках	Количество в MBL	Частота в MBL
C	17890	0.0107884	62	0.0129167
D	84159	0.0507511	288	0.0600000
H	38404	0.0231591	174	0.0362500

UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

2. Поиск и скачивание референсного протеома

3. Оценка количества ферментов в протеоме

4. Анализ протеома консольными средствами