Пракикум 8: UniProt Proteomes, EMBOSS, bash

Выбор протеомов

Мне повезло: в базе данных протеомов есть протеом моей бактерии - Gordonia bronchialis DSM 43247. Поэтому буду использовать его.

В качестве контрольного буду использовать протеом Gordonia mangrovi. Это непатогенная бактерия, обитающая в мангровых лесах.

(Gordonia bronchialis - патогенная и поражает человека)

Таблица 1. Краткое сравнение протеомов
Gordonia bronchialis Gordonia mangrovi
ID UP000001219 UP000475545
Status Reference proteome Reference proteome
CPD Standard Standard
BUSCO* C:99.5% (S:99.2% D:0.3%) F:0.3% M:0.3% C:99.6% (S:99.1% D:0.5%) F:0% M:0.4%
Number of entries 4628 4687
In Swiss-Prot 10 0

*Сomplete (C) single-copy (S) genes, complete (C) duplicated (D) genes, fragmented (F) and missing (M) genes

Оба протеома референсные, у них хорошие показатели CPD и BUSCO, что говорит о хорошем качестве. К сожалению, количество белков протеомов в базе Swiss-Prot ничтожно мало.

Зато данные протеомы можно найти в публикациях!

Протеом Gordonia mangrovi был выбран из-за хорошего качества (CDP и BUSCO), также это референсный протеом, что очень хорошо для анализа, но основная причина - среди Gordonia очень сложно найти непатогенный организм, который можно поставить в сравнение Gordonia bronchialis.

Скачивание


Сравнение протеомов по представленности определенных групп белков

Я очень долго искала, чем различаются протеомы этих двух разных бактерий. Хотелось сравнить бактерии с точки зрения вызываемых ими болезней: Gordonia bronchialis вызывает туберкулёз, а Gordonia mangrovi по идее не должна (заодно хотела проверить). Но проблема в том, что найденные мной особенности бактерий, вызывающих туберкулёз, я не нашла у Gordonia bronchialis. То есть, я не нашла такого признака, по которому в данном случае можно было бы судить: вызывает туберкулёз или нет, и уж тем более сравнивать протеомы.

Таблица 2. Cавнение протеомов по функциональным белкам
Gordonia bronchialis Gordonia mangrovi
ID UP000001219 UP000475545
Number of transmembrane proteins 951 873
Number of enzymes 856 892
Selenocysteine 1 0

Поэтому я проанализировала протеомы по ключевым словам на UniProt и обнаружила, что Gordonia bronchialis синтезирует белок Secretory lipase, относящийся к группе Selenocysteine и который не синтезируется у Gordonia mangrovi.

Немного пунктов, чтобы оправдать дурацкое предположение "зачем бактерии Gordonia bronchialis связывать селен"

  • Почвенные бактерии (к которым относится Gordonia bronchialis) в присутствии селена погибают, будучи к нему неприспособлены.
  • Человек употребляет с пищей селен, который укрепляет имунную систему.

То есть мы имеем бактерию, изначально неприспособленную к селену и желающую поражать систему человека, который селеном укрепляет свой иммунный ответ. То есть Gordonia bronchialis "вычеркивает из уравнения" селен, научившись связывать его и использовать в своем метаболизме, чтобы он "попросту не мешался". Селен присутствует в человеческом организме в малых количествах, поэтому для успешного функционирования бактерии достаточно лишь одного подобного белка.

Подобные сложные схемы Gordonia mangrovi не нужны, ибо она мирно живет в почве, избегая мест, обагощенных селеном.

Запрос, используемые в анализе

Для анализа использовала расширенный поиск Uniprot

    Анализ трансмембранных белков:
  • Gordonia bronchialis: запрос (proteome:UP000001219) AND (keyword:KW-0812)
  • Gordonia mangrovi: запрос (proteome:UP000475545) AND (keyword:KW-0812)
    Анализ ферментов:
  • Gordonia bronchialis: запрос (proteome:UP000001219) AND (ec:*)
  • Gordonia mangrovi: запрос (proteome:UP000475545) AND (ec:*)
    Анализ селеноцистеинов:
  • Gordonia bronchialis: запрос (proteome:UP000001219) AND (keyword: Selenocysteine)
  • Gordonia mangrovi: запрос (proteome:UP000475545) AND (keyword: Selenocysteine)

Сравнивание протеомов по количеству белков, кодируемых триплетами с разным содержанием гуанина и цитозина

Сперва я проанализировала таблицу генетического кода и расписала какие кодоны кодируют аминокислоты и содержание G или C в них.

Таблица 3. Таблица аминокислот
Аминокислота Однобуквенный код Кодоны Встречаемость G и/или C
Фенилаланин (Phe) F UUU, UUC 0, 1
Тирозин (Tyr) Y UAU, UAC 0, 1
Изолейцин (Ile) I AUU, AUA, AUC 0, 1
Аспарагин (Asn) N AAU, AAC 0, 1
Лизин (Lys) K AAA, AAG 0, 1
Лейцин (Leu) L UUA, UUG, CUU, CUA, CUC, CUG 0, 1, 2
Метионин (Met) M AUG 1
Серин (Ser) S UCU, UCA, AGU, UCC, UCG, AGC 1, 2
Гистидин (His) H CAU, CAC 1, 2
Глутамин (Gln) Q CAA, CAG 1, 2
Цистеин (Cys) C UGU, UGC 1, 2
Аспарагиновая кислота (Asp) D GAU, GAC 1, 2
Валин (Val) V GUU, GUA, GUC, GUG 1, 2
Треонин (Thr) T ACU, ACA, ACC, ACG 1, 2
Глутаминовая кислота (Glu) E GAA, GAG 1, 2
Аргинин (Arg) R AGA, AGG, CGU, CGA, CGC, CGG 1, 2, 3
Триптофан (Trp) W UGG 2
Аланин (Ala) A GCU, GCA, GCC, GCG 2, 3
Глицин (Gly) G GGU, GGA, GGC, GGG 2, 3
Пролин (Pro) P CCU, CCA, CCC, CCG 2, 3
Рис. 1. Диаграмма генетического кода

После этого проанализировала количество разных типов аминокислот в протеомах.

Использовала следующие команды:

  • Для протеома Gordonia bronchialis: zcat UP000001219.swiss.gz | sed -n '/^SQ/,/^\/\/$/ { /^SQ/! { s/ //g; s/[^A-Z]//g; p }}' | fold -w1 | sort | uniq -c
  • Для протеома Gordonia mangrovi: zcat UP000475545.swiss.gz | sed -n '/^SQ/,/^\/\/$/ { /^SQ/! { s/ //g; s/[^A-Z]//g; p }}' | fold -w1 | sort | uniq -c

Полученные данные приведены в таблице.

Таблица 4. Сравнение протеомов по количеству аминокислот
Аминокислота Однобуквенный код Встречаемость G и/или C Количество в Gordonia bronchialis Количество в Gordonia mangrovi
Фенилаланин (Phe) F 0, 1 44147 47134
Тирозин (Tyr) Y 0, 1 30816 32068
Изолейцин (Ile) I 0, 1 68688 71315
Аспарагин (Asn) N 0, 1 31525 33049
Лизин (Lys) K 0, 1 30819 30815
Лейцин (Leu) L 0, 1, 2 141984 150349
Метионин (Met) M 1 29955 33332
Серин (Ser) S 1, 2 84457 89470
Гистидин (His) H 1, 2 33595 35759
Глутамин (Gln) Q 1, 2 41336 44245
Цистеин (Cys) C 1, 2 11457 12191
Аспарагиновая кислота (Asp) D 1, 2 102262 110195
Валин (Val) V 1, 2 132602 140114
Треонин (Thr) T 1, 2 97085 100656
Глутаминовая кислота (Glu) E 1, 2 76655 84710
Аргинин (Arg) R 1, 2, 3 113499 117920
Триптофан (Trp) W 2 21969 22911
Аланин (Ala) A 2, 3 193542 203791
Глицин (Gly) G 2, 3 133920 141326
Пролин (Pro) P 2, 3 85823 88504

Исходя из полученных данных, можно заметить, что:

  • ДНК, кодирующие эти протеомы, достаточно устойчивы: в них бльшое содержание GC-пар и довольно малое AT-пар.
  • Данные протеомов практически совпадают: их графики накладываются друг на друга. Это обусловлено тем, что обе бактерии родственные, они обе принадлежат роду Gordonia.
  • Но тем временм, геном, кодирующий протеом Gordonia mangrovi, слегка устойчивее, чем геном Gordonia bronchialis: у него количество AT-пар меньше, а GC-пар больше (чем у Gordonia bronchialis). Разница незначительна, поэтому, вероятно, она обусловлена качеством сборов данных и их обработки.
  • Самая популярная аминокислота - аланин.
Таблица 5. Cавнение протеомов по количеству G/C в кодирующих белки триплетах
Встречаемость G и/или C Gordonia bronchialis Gordonia mangrovi
0-1 13,67705174 13,48431994
0-2 9,427037133 9,456780308
1 1,988864219 2,096544714
1-2 38,47255494 38,82998061
1-3 7,535773662 7,417033262
2 1,458633218 1,441075721
2-3 27,44008509 27,27426544
Рис. 2. Соотношение белков по количеству кодирующих триплетов с разным содержанием гуанина и цитозина

Placeholder

Практикум 7

UniProt

Тык

Placeholder

Практикум 9

Выравнивание как отражение эволюции. Программы парного выравнивания. Jalview

Тык

Placeholder

Практикум 10

Программа BLAST

Тык