В настоящее время в открытом доступе появляется всё больше отсеквенированных и аннотированных геномов. Получить со- держательные результаты из этих данных можно сравнительно простыми способами. В частности, при обработке таблиц удобна программа Microsoft Excel. В этой работе на основе открытых данных NCBI проанализированы особенности кодирования белков в геноме бактерии Lactobacillus amylovorus с использованием программного обеспечения MS Excel.
Лактобациллы – род граммположительных факультативно анаэробных бактерий. Lactobacillus amylovorus была описана L.K. Nakamura в 1981 году. Был впервые выделен из отходов ферментации крупного рогатого скота. Описана в качестве отдельного вида из-за обширных возможностей внеклеточного гидролиза сахаров и отличных от других представителей рода способов культивации (Nakamura, 1981). Геном состоит из одной хромосомы, его длина составляет 2.09 Mbp, также в клетке обнаруживаются две плазмиды. GC-пары составляют 38,08% генома [4]. Своими биохимическими особенностями может быть интересна для исследования с целью дальнейшего промышленного использования [2]. В данной работе проанализирована таблица, описывающая транскриптом L. amyllovorus, отмечены некоторые особенности распределения генов белков и РНК.
Для проверки гипотезы и составления сопроводительных таблиц и гистограмм была использована программа MS Excel. Все таблицы можно найти в сопроводительных материалах. Для анализа данных использовались различные функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН, МЕДИАНА, МИН, МАКС, ВПР (VLOOKUP), а также сделанная плоская таблица. Использованы методы фильтрации, сортировки, относительной и абсолютной адресации, связи таблиц, специальной вставке, условного форматирования, распространения формул, построения гистограмм. Для проверки гипотезы случайного распределения генов был использован статистический критерий p-value. Информация о белках генома была получена из базы данных Genome NCBI и банка данных GenBank [4]. Информация о геноме:
Assembly: GCA_000191545.1
GenBank assembly accession: GCA_000191545.1 (latest)
В рамках работы был проведен анализ длин белковых последовательностей. Как показано на гистограмме (Рис. 2), наиболее часты белки длиной от 50 до 350 аминокислотных остатков (составляют 67% всех белков). Около 3% всех белков имеют длину менее 50 аминокислот. 29% всех белков бактерии имеет длину от 350 до 900 аминокислотных остатков, и лишь 23 белка (1%) имеет длину более 950.
В Таблице 1 отражены минимальные, максимальные и медианные длины. Минимальная составляет 27 остатков, максимальная – 2124, а медианная – 254. Из этих данных можно сделать вывод, что большинство белков данной бактерии имеют относительно небольшую длину. Из среднего отклонения можно сказать, что подавляющее большинство белков имеет длину от 103 до 405 остатков.
Таблица 1. Статистические данные по длинам белков
Минимум | 27 |
Максимум | 2124 |
Среднее отклонение | 151 |
Средняя длина | 291 |
Медиана | 254 |
Такое распределение можно объяснить следующим: белки прокариот, в отличие от эукариот часто одно- или двудоменные. Третичная глобула, приходящаяся на один домен, имеет более-менее фиксированную длину. В распределении видно два максимума, которые, по всей видимости, получаются путем сочетания нормального распределения отдельно для одно- и для двудоменных белков. Медианная длина белка в 254 остатка является обычной для белков домашнего хозяйства и ферментов основных биохимических путей, а также может быть связана с отбором на длину генома в мире прокариот [3].
Был проведен анализ распределения различных функциональных классов генов по прямой и обратной цепи DNA. Из данных таблицы 2 видно, что гены белков распределены по цепям в целом равновероятно. Это подтверждает теорию о равнозначно- сти обеих цепей DNA в клетках любого организма. О псевдогенах бактерии ничего неизвестно, что говорит о её плохой изученности, что связано с низкой распространенностью и особенностями культивации. А вот число генов RNA распределено по цепочкам явно неравномерно. Была проверена гипотеза о случайном распределении генов по цепям с помощью p-value. Критическим значением будем считать 0,001. В случае RNA имеем значение сильно меньше критического. Это нетривиальный факт, который требует дальнейших исследований. Это может быть также связано с особенностями поиска таких RNA, с регуляцией транскрипции таких генов, с тем, что гены tRNA транскрибируются другой полимеразой, нежели белки, и может быть, ей удобнее к ним так подступать, или, что возможно, с небольшой выборкой.
Таблица 2. Распределение генов разных функциональных классов по двум цепям DNA
Число генов | На прямой цепи DNA | На обратной цепи DNA | Всего | p-value |
Белков | 1068 | 991 | 2059 | 0,09 |
Псевдогенов | 0 | 0 | 0 | - |
RNA | 64 | 11 | 75 | 3,1*10-10 |
Был проведен анализ классов белков, из которого мы выяснили, что гипотетические белки занимают в транскриптоме бактерии почти треть (Таблица 3).
Таблица 3. Гипотетические белки
Число гипотетических белков | Процент от всех |
588 | 29% |
Такую долю можно объяснить недостаточной изученностью бактерии по причинам, оговоренным выше. Исследование ко- личества белков и RNA, составляющих рибосому (Таблица 4) показывает классическую картину строения рибосом прокариот. К ним относятся 5S, 16S, 23S rRNA, белки, составляющие 50S, 30S субъединицу, различные регуляторные белки (метилтрансферазы, ацетилтрансферазы, псведоуридинсинтаза).
Таблица 4. Рибосомальные белки и RNA
Число рибосомальных белков | Число rRNA |
65 | 12 |
Затем были более подробно рассмотрены распределения генов различных функциональных RNA по двум цепям в геноме (Таблица 5). Здесь также наблюдается неравномерность распределения по цепочкам. Число транспортных RNA укладывается в наши представления, поскольку триплетом нуклеотидов можно закодировать 43 = 64 аминокислоты, то есть в клетке может быть до 64 различных транспортных RNA, просто в этом случае некоторые обслуживают принцип избыточности генетического кода, а одна замещена стоп-кодоном.
Таблица 5. Распределение функциональных классов RNA по цепям DNA
Число генов | На прямой цепи DNA | На обратной цепи DNA | Всего | p-value |
Число генов rRNA | 9 | 3 | 12 | 0,14 |
Число генов tRNA | 55 | 8 | 63 | 9,7*10-10 |
Также было выяснено количество белков различных жизненно-важных функциональных классов (Таблица 6). В целом картина является довольно типичной для прокариот, однако обращает на себя внимание очень низкое количество трансмембранных белков. Это может быть связано со сложностью в выделении таких белков или их транскриптомного анализа.
Таблица 6. Количество белков некоторых функциональных классов
ATP synthases | 10 |
ATPases | 29 |
Transporters | 122 |
Transmembrane proteins | 2 |
Regulator | 86 |
RNA polimerases | 7 |
DNA polimerases | 13 |
В ходе исследования было выявлено довольно несколько необычных закономерностей, которые требуют дальнейшего изучения. Необходимо также проверить корректность исходных данных, найти данные о геноме и протеоме из других источников и перепроверить результаты.
Хотелось бы выразить благодарность преподавателям факультета биоинженерии и биоинформатики МГУ: Алексеевскому А.В., Залевскому А.О. Спирину С.А. за предоставленные знания, а также Салимгарееву Р.С. за помощь в постижении биоинформатики.
Сопроводительные материалы доступны по ссылке
[1] Nakamura LK. (1981) Lactobacillus amylovorus, a new starch hydrolyzing species from swine waste-corn fermentation. Int. J. Sys. Bacteriol. 31: 56–63
[2] Zhang D. X., Cheryan M. Direct fermentation of starch to lactic acid byLactobacil- lus amylovorus //Biotechnology Letters. – 1991. – Т. 13. – No. 10. – С. 733-738.
[3] Tiessen A., Pérez-Rodríguez P., Delaye-Arredondo L. J. Mathematical modeling and comparison of protein size distribution in different plant, animal, fungal and mi- crobial species reveals a negative correlation between protein size and protein number, thus providing insight into the evolution of proteomes //BMC research notes. – 2012. – Т. 5. – No. 1. – С. 85.
[4] https://www.ncbi.nlm.nih.gov/genome/genomes/2539 (Была доступна 10.12.2019)