Белок, с которым я работаю -- карбоангидраза из организма Methanosarcina thermophila.
Карбоангидраза — фермент, который катализирует обратимую реакцию гидратации углексилого газа. Его молекула содержит ион цинка в качестве кофактора, способствующего отрыву протона от воды [1].
Methanosarcina thermophila — термофильная архея. Этот организм является метаногеном. Было показано, что эта архея способна использовать углекислый газ для осуществления гидрогенотрофного метаногенеза [2], поэтому исследуемый белок критически важен для её метаболизма.
В качестве основного протеома я выбрала протеом археи Methanosarcina acetivorans, она близка к моей архее (относится к тому же роду) и хорошо изучена. В качестве контрольного протеома я взяла протеом другой метаногенной археи — Methanobrevibacter ruminantium. Эта архея является строго анаэробной, в то время как основная бактерия толерантна к кислороду. Оба протеома являются референсными.
Организм: Methanosarcina acetivorans (strain ATCC 35395 / DSM 2834 / JCM 12185 / C2A)
Идентификатор: UP000002487
Всего белков 4468, из них в Swiss-prot 519
Busco: 99.1% полных белков, CPD: Outlier (high value)
Организм: Methanobrevibacter ruminantium (strain ATCC 35063 / DSM 1093 / JCM 13430 / OCM 146 / M1) (Methanobacterium ruminantium)
Идентификатор: UP000008680
Всего белков: 2209, из них в Swiss-prot 14
Busco: 98.1% полных белков, CPD: Close to standard (high value)
Все команды можно увидеть по ссылке
По полученным данным можно сделать вывод, что отличия в доле трансмембранных белков незначительные.
В первом протеоме нашлось 519 (11.62%) ферментов, во втором обнаружился 501 (22.68%) фермент. Поиск осуществлялся при помощи python по строкам DE, ферментами считались те белки, которые имеют в этих строках классификацию ферментов (EC).
Стоит отметить, что информация о EC есть не у всех ферментов, иногда они недостаточно хорошо аннотированны и классификация не указывается. Однако, как показали поисковые запросы, это не вносит значительных изменений в общую картину.
Относительное количество ферментов почти вдвое меньше в первом протеоме. Это можно связать с тем, что второй организм менее изучен, возможно, на данный момент были отсеквенированны почти все его ферменты и меньшая часть прочих белков, из-за чего можем наблюдать такую разницу
Первый протеом:
Оксидоредуктазы - 14.73%; Трансферазы - 38.57%; Гидролазы - 15.11%; Лиазы - 13.57%; Изомеразы - 6.59%; Лигазы - 13.37%; Транслоказы - 3.68%.
Второй протеом:
Оксидоредуктазы - 17.76%; Трансферазы - 35.33%; Гидролазы - 18.16%; Лиазы - 11.78%; Изомеразы - 6.19%; Лигазы - 14.37%; Транслоказы - 0.199%
Иногда для одного и того же белка указывается две и более предположительные классификации. Из них я брала в учет только первую, но, так как таких белков было не слишком много, это не сильно отразилось на результатах.
Для анализа использовался пункт EC в строках DE, анализ проходил при помощи Python.
Значительно отличается только количество транслоказ. Вторая бактерия анаэробна, и такие результаты вполне ожидаемы.
Для осуществления этой задачи использовался python. Проходил подсчёт среднего количества упоминаний (строк DR) на белок.
Для первого белка эта цифра составила 17.9, для второго - 19.24.
На основании этих данных некорректно делать выводы об изученности генома, так как на среднее арифметическое сильно влияют очень большие и очень маленькие значения, попадающие в выборку.
1. Lindskog, S. (1997). Structure and mechanism of carbonic anhydrase. Pharmacology & Therapeutics, 74(1), 1–20. doi:10.1016/s0163-7258(96)00198-2.
2. Zinder, S. H.; Sowers, K. R.; Ferry, J. G. (1985). NOTES: Methanosarcina thermophila sp. nov., a Thermophilic, Acetotrophic, Methane-Producing Bacterium. International Journal of Systematic Bacteriology. 35 (4): 522–523. doi:10.1099/00207713-35-4-522. ISSN 0020-7713.