Пракикум 8: UniProt Proteomes, EMBOSS, bash
Выбор протеомов
Мне повезло: в базе данных протеомов есть протеом моей бактерии - Gordonia bronchialis DSM 43247. Поэтому буду использовать его.
В качестве контрольного буду использовать протеом Gordonia mangrovi. Это непатогенная бактерия, обитающая в мангровых лесах.
(Gordonia bronchialis - патогенная и поражает человека)
Gordonia bronchialis | Gordonia mangrovi | |
---|---|---|
ID | UP000001219 | UP000475545 |
Status | Reference proteome | Reference proteome |
CPD | Standard | Standard |
BUSCO* | C:99.5% (S:99.2% D:0.3%) F:0.3% M:0.3% | C:99.6% (S:99.1% D:0.5%) F:0% M:0.4% |
Number of entries | 4628 | 4687 |
In Swiss-Prot | 10 | 0 |
*Сomplete (C) single-copy (S) genes, complete (C) duplicated (D) genes, fragmented (F) and missing (M) genes
Оба протеома референсные, у них хорошие показатели CPD и BUSCO, что говорит о хорошем качестве. К сожалению, количество белков протеомов в базе Swiss-Prot ничтожно мало.
Зато данные протеомы можно найти в публикациях!
- Gordonia bronchialis:
- Complete genome sequence of Gordonia bronchialis type strain (3410)
- The complete chromosome of Gordonia bronchialis DSM 43247
Протеом Gordonia mangrovi был выбран из-за хорошего качества (CDP и BUSCO), также это референсный протеом, что очень хорошо для анализа, но основная причина - среди Gordonia очень сложно найти непатогенный организм, который можно поставить в сравнение Gordonia bronchialis.
Скачивание
- Команда для протеома Gordonia bronchialis:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001219) ' -O UP000001219.swiss.gz
- Команда для протеома Gordonia mangrovi:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000475545) ' -O UP000475545.swiss.gz
Сравнение протеомов по представленности определенных групп белков
Я очень долго искала, чем различаются протеомы этих двух разных бактерий. Хотелось сравнить бактерии с точки зрения вызываемых ими болезней: Gordonia bronchialis вызывает туберкулёз, а Gordonia mangrovi по идее не должна (заодно хотела проверить). Но проблема в том, что найденные мной особенности бактерий, вызывающих туберкулёз, я не нашла у Gordonia bronchialis. То есть, я не нашла такого признака, по которому в данном случае можно было бы судить: вызывает туберкулёз или нет, и уж тем более сравнивать протеомы.
Gordonia bronchialis | Gordonia mangrovi | |
---|---|---|
ID | UP000001219 | UP000475545 |
Number of transmembrane proteins | 951 | 873 |
Number of enzymes | 856 | 892 |
Selenocysteine | 1 | 0 |
Поэтому я проанализировала протеомы по ключевым словам на UniProt и обнаружила, что Gordonia bronchialis синтезирует белок Secretory lipase, относящийся к группе Selenocysteine и который не синтезируется у Gordonia mangrovi.
Немного пунктов, чтобы оправдать дурацкое предположение "зачем бактерии Gordonia bronchialis связывать селен"
- Почвенные бактерии (к которым относится Gordonia bronchialis) в присутствии селена погибают, будучи к нему неприспособлены.
- Человек употребляет с пищей селен, который укрепляет имунную систему.
То есть мы имеем бактерию, изначально неприспособленную к селену и желающую поражать систему человека, который селеном укрепляет свой иммунный ответ. То есть Gordonia bronchialis "вычеркивает из уравнения" селен, научившись связывать его и использовать в своем метаболизме, чтобы он "попросту не мешался". Селен присутствует в человеческом организме в малых количествах, поэтому для успешного функционирования бактерии достаточно лишь одного подобного белка.
Подобные сложные схемы Gordonia mangrovi не нужны, ибо она мирно живет в почве, избегая мест, обагощенных селеном.
Запрос, используемые в анализе
Для анализа использовала расширенный поиск Uniprot
- Анализ трансмембранных белков:
- Gordonia bronchialis: запрос (proteome:UP000001219) AND (keyword:KW-0812)
- Gordonia mangrovi: запрос (proteome:UP000475545) AND (keyword:KW-0812)
- Анализ ферментов:
- Gordonia bronchialis: запрос (proteome:UP000001219) AND (ec:*)
- Gordonia mangrovi: запрос (proteome:UP000475545) AND (ec:*)
- Анализ селеноцистеинов:
- Gordonia bronchialis: запрос (proteome:UP000001219) AND (keyword: Selenocysteine)
- Gordonia mangrovi: запрос (proteome:UP000475545) AND (keyword: Selenocysteine)
Сравнивание протеомов по количеству белков, кодируемых триплетами с разным содержанием гуанина и цитозина
Сперва я проанализировала таблицу генетического кода и расписала какие кодоны кодируют аминокислоты и содержание G или C в них.
Аминокислота | Однобуквенный код | Кодоны | Встречаемость G и/или C |
---|---|---|---|
Фенилаланин (Phe) | F | UUU, UUC | 0, 1 |
Тирозин (Tyr) | Y | UAU, UAC | 0, 1 |
Изолейцин (Ile) | I | AUU, AUA, AUC | 0, 1 |
Аспарагин (Asn) | N | AAU, AAC | 0, 1 |
Лизин (Lys) | K | AAA, AAG | 0, 1 |
Лейцин (Leu) | L | UUA, UUG, CUU, CUA, CUC, CUG | 0, 1, 2 |
Метионин (Met) | M | AUG | 1 |
Серин (Ser) | S | UCU, UCA, AGU, UCC, UCG, AGC | 1, 2 |
Гистидин (His) | H | CAU, CAC | 1, 2 |
Глутамин (Gln) | Q | CAA, CAG | 1, 2 |
Цистеин (Cys) | C | UGU, UGC | 1, 2 |
Аспарагиновая кислота (Asp) | D | GAU, GAC | 1, 2 |
Валин (Val) | V | GUU, GUA, GUC, GUG | 1, 2 |
Треонин (Thr) | T | ACU, ACA, ACC, ACG | 1, 2 |
Глутаминовая кислота (Glu) | E | GAA, GAG | 1, 2 |
Аргинин (Arg) | R | AGA, AGG, CGU, CGA, CGC, CGG | 1, 2, 3 |
Триптофан (Trp) | W | UGG | 2 |
Аланин (Ala) | A | GCU, GCA, GCC, GCG | 2, 3 |
Глицин (Gly) | G | GGU, GGA, GGC, GGG | 2, 3 |
Пролин (Pro) | P | CCU, CCA, CCC, CCG | 2, 3 |
После этого проанализировала количество разных типов аминокислот в протеомах.
Использовала следующие команды:
- Для протеома Gordonia bronchialis:
zcat UP000001219.swiss.gz | sed -n '/^SQ/,/^\/\/$/ { /^SQ/! { s/ //g; s/[^A-Z]//g; p }}' | fold -w1 | sort | uniq -c
- Для протеома Gordonia mangrovi:
zcat UP000475545.swiss.gz | sed -n '/^SQ/,/^\/\/$/ { /^SQ/! { s/ //g; s/[^A-Z]//g; p }}' | fold -w1 | sort | uniq -c
Полученные данные приведены в таблице.
Аминокислота | Однобуквенный код | Встречаемость G и/или C | Количество в Gordonia bronchialis | Количество в Gordonia mangrovi |
---|---|---|---|---|
Фенилаланин (Phe) | F | 0, 1 | 44147 | 47134 |
Тирозин (Tyr) | Y | 0, 1 | 30816 | 32068 |
Изолейцин (Ile) | I | 0, 1 | 68688 | 71315 |
Аспарагин (Asn) | N | 0, 1 | 31525 | 33049 |
Лизин (Lys) | K | 0, 1 | 30819 | 30815 |
Лейцин (Leu) | L | 0, 1, 2 | 141984 | 150349 |
Метионин (Met) | M | 1 | 29955 | 33332 |
Серин (Ser) | S | 1, 2 | 84457 | 89470 |
Гистидин (His) | H | 1, 2 | 33595 | 35759 |
Глутамин (Gln) | Q | 1, 2 | 41336 | 44245 |
Цистеин (Cys) | C | 1, 2 | 11457 | 12191 |
Аспарагиновая кислота (Asp) | D | 1, 2 | 102262 | 110195 |
Валин (Val) | V | 1, 2 | 132602 | 140114 |
Треонин (Thr) | T | 1, 2 | 97085 | 100656 |
Глутаминовая кислота (Glu) | E | 1, 2 | 76655 | 84710 |
Аргинин (Arg) | R | 1, 2, 3 | 113499 | 117920 |
Триптофан (Trp) | W | 2 | 21969 | 22911 |
Аланин (Ala) | A | 2, 3 | 193542 | 203791 |
Глицин (Gly) | G | 2, 3 | 133920 | 141326 |
Пролин (Pro) | P | 2, 3 | 85823 | 88504 |
Исходя из полученных данных, можно заметить, что:
- ДНК, кодирующие эти протеомы, достаточно устойчивы: в них бльшое содержание GC-пар и довольно малое AT-пар.
- Данные протеомов практически совпадают: их графики накладываются друг на друга. Это обусловлено тем, что обе бактерии родственные, они обе принадлежат роду Gordonia.
- Но тем временм, геном, кодирующий протеом Gordonia mangrovi, слегка устойчивее, чем геном Gordonia bronchialis: у него количество AT-пар меньше, а GC-пар больше (чем у Gordonia bronchialis). Разница незначительна, поэтому, вероятно, она обусловлена качеством сборов данных и их обработки.
- Самая популярная аминокислота - аланин.
Встречаемость G и/или C | Gordonia bronchialis | Gordonia mangrovi |
---|---|---|
0-1 | 13,67705174 | 13,48431994 |
0-2 | 9,427037133 | 9,456780308 |
1 | 1,988864219 | 2,096544714 |
1-2 | 38,47255494 | 38,82998061 |
1-3 | 7,535773662 | 7,417033262 |
2 | 1,458633218 | 1,441075721 |
2-3 | 27,44008509 | 27,27426544 |
![](percent.jpg)