UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

2. Поиск и скачивание референсного протеома

Протеом, соответсвующий геномной сборки бактрерии Klebsiella quasipneumoniae не является референсным, поэтому поиск протеома для дальнейшего анализа проводился по родительскому таксону — Klebsiella (Taxon ID — 570).
Поисковый запрос в Uniprot Proteomes: (taxonomy_id:570) AND (proteome_type:1)
Из полученного перечня был выбран протеом с пометкой "Standard".
Идентификатор выбранного протеома — UP000789617
Команда для скачивания архива протеома:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000789617' -O UP000789617.swiss.gz

3. Оценка количества ферментов в протеоме

Численные оценки количества ферментов в протеоме получились достаточно схожими. Небольшая разница может быть связана с особенностями работы командной строки: в отличие от UniProt, который ищет по полным белковым записям, конвейер работает со строками. Из-за этого часть белков может быть посчитана дважды, а какие-то — наоборот пропущены (если нужная информация оказывается вне диапазона выбранных строк). Чтобы избежать повторного подсчёта, я пыталась извлекать ID белка. Использовался параметр -B50, который рассчитан на то, что 50 строк хватит для включения строки ID, однако, возможно, в некоторых случаях это число оказалось недостаточным, и записи не были учтены.

4. Анализ протеома консольными средствами

В рамках миниобзора в прошлом семестре я изучала металло-бета-лактамазы бактрерии Klebsiella quasipneumoniae. Поэтому протеом бактерии Klebsiella variicola я также решила проанализировать с точки зрения металло-бета-лактамаз (MBL). Я предположила, что последовательности MBL должны содержать повышенные частоты аминокислот, которые чаще всего координируют ионы цинка (основной лиганд MBL) — His, Cys и Asp. С помощью конвейеров bash и скрипта на python были получены частоты встречаемости аминокислот в последовательностях MBL. Однако гипотеза не оправдалась, и частоты аминокислот в MBL почти не отличались от соответсвующих частот среди всех белков протеома. Вероятно, в этом протеоме не так много MBL — 13, поэтому такой анализ нерепрезентативен. Возможно, дело в том, что лигандов не так много и от этого частоты встречаемости и не должны меняться в принципе.

Как проводился анализ:

  1. Создавался fasta файл из архива формата swiss. Я это делала через временный файл tmp_input.swiss, который удалялся сразу после создания fasta. Использовала команду seqret из пакета EMBOSS.
    zcat UP000789617.swiss.gz > tmp_input.swiss
    seqret -sequence tmp_input.swiss -outseq all.fasta
    rm tmp_input.swiss
  2. Формировались файлы со строками, содержащими ID всех белков протеома и отдельно металло-бета-лактамаз.
    zgrep -v '^RT' UP*|grep -B50 -i -e 'Metallo-b' -e ' MBL '|grep '^ID' > id_mbl.txt
    zgrep '^ID' UP* > id_all.txt
  3. Формировались файлы содержащие только список ID всех белков и отдельно MBL.
    tr -s ' ' < id_mbl.txt | cut -d' ' -f2 > only_id_mbl.txt
    tr -s ' ' < id_all.txt | cut -d' ' -f2 > only_id_all.txt
  4. Создавался файл содержащий только последовательности всех белков.
    grep -v -f only_id_all.txt all.fasta > all_seq.fasta
  5. Аналогичный файл с последовательностями MBL создавался с помощью кода на python.
    С помощью chmod давалось разрешение на запускание кода:
    chmod +x extract_seq_by_ids.py
    Сам код из командной строки запускался:
    python3 extract_seq_by_ids.py
  6. С помощью команды compseq пакета EMBOSS подсчитывались частоты аминокислот среди последовательностей всех белков и отдельно MBL.
    compseq -sequence mbl_seq.fasta -word 1 -outfile aa_freq_mbl.txt
    compseq -sequence all_seq.fasta -word 1 -outfile aa_freq_all.txt
  7. Находили строки с частотами интересующих нас аминокислот.
    grep -e '^H' -e '^C' -e '^D' aa_freq_all.txt
    grep -e '^H' -e '^C' -e '^D' aa_freq_mbl.txt
  8. Сравниваем полученные частоты, видим, что частоты в MBL больше, но совсем незначительно.
    Количество во всех белках Частота во всех белках Количество в MBL Частота в MBL
    C 17890 0.0107884 62 0.0129167
    D 84159 0.0507511 288 0.0600000
    H 38404 0.0231591 174 0.0362500