Анализ протеома бактерии Streptococcus thermophilus (отчет по пр.8)


Предисловие

Этот печальный отчет представляет собой результаты моих трудов в познании UniProt. Отчет разделен на 4 части: 1) поиск протеома бактерии Streptococcus thermophilus в базе UniProt Proteomes; 2) Поиск и скачивание референсного протеома ближайшего штамма/вида; 3) Оценка количества ферментов в протеоме с помощью командной строки и расширенного поиска UniProt; 4) програмный анализ протеома. Далее результаты:



Идентификатор сборки RefSeq: GCF_903886475.1

Сборка из NCBI Datasets Genome

Идентификатор сборки INSDC: GCA_903886475.1

Запрос UniProt в Proteomes: (genome_assembly:GCA_903886475.1)

Идентификатор протеома: UP000509526

Статус: избыточный (в пользу UP000509120)


Команда для скачивания референсного протеома:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001170)' -O UP000001170.swiss.gz


Конвейер в bash:
zcat UP000001170.swiss.gz | grep '^CC ' | grep 'CATALYTIC ACTIVITY' | wc -l
OUTPUT: 451
Подсчитывается количество белков, имеющих подполе "Каталитическая активность" в поле комментариев (CC)

Запрос UniProt:
(proteome:UP000001170) AND ( (keyword:KW-0560) OR (keyword:KW-0378) OR (keyword:KW-0808) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-0436) OR (keyword:KW-1278) )
581 запись. В выборку попадают белки, относящиеся к нужному протеому и к одному из семи типов ферментов (Оксидоредуктазы, Трансферазы, Гидролазы и тд

Оценка через поисковую строку на 22% больше. Можем проверить с чем это связано. Добавляем в конец запроса NOT (cc_catalytic_activity:*) и получаем 203 записи с одним из семи типов ферментов в ключевых словах, но без поля "Каталитическая активность". Если посмотреть несколько из них, то ничего необычного там нет, просто не представлено катализируемой реакции. Так что вторая оценка кажется более верной. Но есть еще один момент: 73 белка имеют поле "Каталитическая активность", но не содержат в ключевых словах ни один из представленных семи типов ферментов. Возможно ни под один тип они не попадают, может просто не написали. Думаю их тоже стоит учесть. И того около 654 ферментов



Это раздел с анализом протеома консольными средствами. Все команды написаны на Python, посмотреть на них и их вывод можно тут

1) Мутации ( mutations.py ; _output )
На UniProt есть белки с измененными в экспериментальных целях аминокислотами. Программа искала в протеоме именно такие, и нашла 4 штуки. На выходе мы получаем следующую информацию: позицию/и замененной/ых аминокислот(ы); эффект, который это изменение оказало на работу белка; позицию активного цента и связывающего сайта (если есть данные). Таким образом мы можем посмотреть как мутации в разных частях белка влияют на работу молекулы
Q5M243 - заменено 2 аминокислоты. Первая (поз. 90) не попала ни на сайт связывания, ни на активный центр. Но эта мутация повлияла на работу в комплексе с др. белком => на этой позиции может располагаться участок связи между двумя молекулами в комплексе. Вторая мутация (поз. 163) попадает ровно в активный центр и десятикратно замедляет работу комплекса, чего и стоило ожидать
Q5M244 - ровно то же самое, только немного смещены позиции. Это как раз второй белок комплекса
Q5M4V4 - мутации на позициях 305-306, активный центр на позиции 336, сайт связывания - неизвестно. Но эта мутация уменьшила связывание с целевой молекулой, так что, позиции 305-306 как раз могут лежать в сайте связывания
Q5M4V3 - две мутации (поз. 35 и 39), про сайты белка данных нет. Первая мутация не повлияла на работу, вторая уменьшила связывание с целевой молекулой => можем предположить, что сайт связывания попадает на 39, но не попадает на 35 позицию

2) Повышенное содержание цистеина( cys.py ;percent.py; mid_dev.py;_output(cys);_output(percent))
Программа (percent.py) рассчитывает процентное содержание аминокислот в протеоме. На цистеин пришлось 0,56% (а три средних квадратичных отклонения (3σ) = 3.00%, подсчитаные с помощью кода (mid_dev.py). Другая команда (cys.py) выбирает белки с содержанием цистеина выше заданного значения. На диске приведены белки выше 3.56% (28 шт.) и 5.00% (9 шт.). Некоторые не имеют нормальной аннотации, и я не могу сказать про них ничего интересного. Также многие белки относительно короткие (<100а.к), и возможно содержание цистеина в них повышено из-за простой случайности (для белка длиной 33а.к. 1 цистеин это уже больше 3%). Сильно выделяются два типа белков: железо-серные, тут очевидно почему в них много цистеина, и рибосомальные белки. Это удивляет. При чем во многих содержание цистеина более 5% и до 8%. Я не нашел никакого четкого ответа почему такое может случиться, так что могу лишь предположить, что это нужно для сохранения работоспособности хрупких рибосом при высоких температурах (оптимальная температура для Streptococcus thermophilus 42-45°C) и защиты от кислорода. Также в выборку попало много белков, связывающихся с цинком, что тоже понятно. А из необычного есть белок-транспортер меди

3) Самый модный белок( fashion.py ; _output )
Белок Q5M4H8 процитировали в статьях 12 раз, и он самый цитируемый в протеоме. Больше тут нечего добавить



Большое спасибо за внимание. На этом все