Поисковый запрос по UniProt Proteomes — (genome_assembly:GCA_016415705.1)
Идентификатор протеома — UP000595603
Статус протеома — Избыточный протеом
Протеом, в пользу которого исключили из Proteomes — UP000245649
2. Поиск и скачивание референсного протеома
Протеом, соответсвующий геномной сборки бактрерии Klebsiella quasipneumoniae не является референсным,
поэтому поиск протеома для дальнейшего анализа
проводился по родительскому таксону — Klebsiella(Taxon ID — 570).
Поисковый запрос в Uniprot Proteomes: (taxonomy_id:570) AND
(proteome_type:1) Из полученного перечня был выбран протеом с пометкой "Standard".
Идентификатор выбранного протеома — UP000789617 Команда для скачивания архива протеома: wget
'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000789617' -O
UP000789617.swiss.gz
Численные оценки количества ферментов в протеоме получились достаточно схожими.
Небольшая разница может быть связана с особенностями работы командной строки: в отличие от UniProt, который ищет по полным белковым записям, конвейер работает со строками.
Из-за этого часть белков может быть посчитана дважды, а какие-то — наоборот пропущены (если нужная информация оказывается вне диапазона выбранных строк).
Чтобы избежать повторного подсчёта, я пыталась извлекать ID белка. Использовался параметр -B50, который рассчитан на то, что 50 строк хватит для включения строки ID,
однако, возможно, в некоторых случаях это число оказалось недостаточным, и записи не были учтены.
4. Анализ протеома консольными средствами
В рамках миниобзора в прошлом семестре я изучала металло-бета-лактамазы бактрерии Klebsiella quasipneumoniae.
Поэтому протеом бактерии Klebsiella variicola я также решила проанализировать с точки зрения металло-бета-лактамаз (MBL). Я предположила, что последовательности MBL
должны содержать повышенные частоты аминокислот, которые чаще всего координируют ионы цинка (основной лиганд MBL) — His, Cys и Asp.
С помощью конвейеров bash и скрипта на python были получены частоты встречаемости аминокислот в последовательностях MBL. Однако гипотеза не оправдалась, и частоты аминокислот в MBL почти не отличались от
соответсвующих частот среди всех белков протеома. Вероятно, в этом протеоме не так много MBL — 13, поэтому такой анализ нерепрезентативен. Возможно, дело в том, что лигандов не так много и от этого частоты встречаемости и не должны меняться в принципе.
Как проводился анализ:
Создавался fasta файл из архива формата swiss. Я это делала через временный файл tmp_input.swiss, который удалялся сразу после создания fasta. Использовала команду seqret из пакета EMBOSS.
zcat UP000789617.swiss.gz > tmp_input.swiss
seqret -sequence tmp_input.swiss -outseq all.fasta
rm tmp_input.swiss
Формировались файлы со строками, содержащими ID всех белков протеома и отдельно металло-бета-лактамаз.
zgrep -v '^RT' UP*|grep -B50 -i -e 'Metallo-b' -e ' MBL '|grep '^ID' > id_mbl.txt
zgrep '^ID' UP* > id_all.txt
Формировались файлы содержащие только список ID всех белков и отдельно MBL.
tr -s ' ' < id_mbl.txt | cut -d' ' -f2 > only_id_mbl.txt
tr -s ' ' < id_all.txt | cut -d' ' -f2 > only_id_all.txt
Создавался файл содержащий только последовательности всех белков.
grep -v -f only_id_all.txt all.fasta > all_seq.fasta
Аналогичный файл с последовательностями MBL создавался с помощью кода на python.
С помощью chmod давалось разрешение на запускание кода:
chmod +x extract_seq_by_ids.py Сам код из командной строки запускался:
python3 extract_seq_by_ids.py
С помощью команды compseq пакета EMBOSS подсчитывались частоты аминокислот среди последовательностей всех белков и отдельно MBL.
compseq -sequence mbl_seq.fasta -word 1 -outfile aa_freq_mbl.txt
compseq -sequence all_seq.fasta -word 1 -outfile aa_freq_all.txt