Клещенко М.Д.
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М. В. Ломоносова
Methylovorus glucosetrophus SIP3-4 – бактерия, относящаяся к семейству Methylophilaceae. Оно включает в себя 4 рода, все представители которых – повсеместно распространенные облигатные или факультативные метилотрофы из наземных или пресноводных сред. Данная бактерия использует метиламин. Её геном кодирует ферменты: метанолдегидрогеназа, малатдегидрогеназа. Было установлено, что эти они являются отличительными для первичного окисления субстрата у этого вида[2]. Вероятное практическое применение:
Для анализа бактерии использовались:
Расчеты проводились в программах Excel и Python:
Из таблицы особенностей мы узнали, что геном Methylovorus glucosetrophus SIP3-4 состоит из одной хромосомы и двух плазмид (pMsip01, pMsip02). Из данных о сборке генома можно узнать GC-состав, однако точность его определения мала, поэтому посчитаем значения с помощью программы, написанной в Python [СМ 2, программа 1]. Сведения о длине и GC-составе ДНК можно узнать из Таблицы 1.
| ДНК | Длина, п.н. | GC-состав, % |
|---|---|---|
| Хромосома | 2995511 | 0.54860 |
| pMsip01 | 76680 | 0.45713 |
| pMsip02 | 9816 | 0.47407 |
GC-состав генома свидетельствует о том, что бактерия проживает в умеренных условиях.
На основании таблицы особенностей был проведен анализ данных о белках протеома, а также построена гистограмма, отражающая количественное распределение белков разной длины. В Таблице 2 приведены данные о диапазоне длин белков, а также среднем и медианном значениях.
| Показатель | Число аминокислотных остатков |
|---|---|
| Минимальная длина | 23 |
| Максимальная длина | 2907 |
| Средняя длина | 322,32 |
| Медиана | 268 |
Как видно из Рисунка 1, в диапазоне 143-183 аминокислотных остатков наблюдается пик. Распределение напоминает положительно скошенное распределение.
На горизонтальной оси располагаются интервалы, соответствующие количеству аминокислот, а на вертикальной оси – количество белков, длины которых попадают в данный диапазон.
Далее мною был проведен анализ белков по их функциям, результаты приведены в Таблице 3. Исходя из приведенных данных о том, что гипотетические белки составляют целых 14,16%, можем сделать вывод что геном изучен не до конца, ведь средняя длина таких белков составляет 189 аминокислотных остатков, медианное значение чуть меньше – 156, а самый длинный белок и вовсе 1452. Исходя из гистограммы, обсужденной выше, можно сделать вывод, что неизученными остаются белки, которые могут выполнять действительно важные функции, так как основную массу белков составляют протеины именно такой длины.
| Тип белков | Количество белков | Доля белков, % |
|---|---|---|
| Все белки | 2881 | 100,00 |
| Рибосомальные | 59 | 2,05 |
| Транспортные | 174 | 6,04 |
| Гипотетические | 408 | 14,16 |
Также был проведен анализ расположения генов, кодирующих белки, на прямой и комплементарной цепочках ДНК для каждой из молекул и рассчитана вероятность того, что при случайном распределении генов по двум цепочкам мы получим такую же или большую разницу между количествами генов на двух цепочках.
| Молекула ДНК | Цепь | Количество генов | Вероятность случайного распределения |
|---|---|---|---|
| Хромосома | прямая | 1342 | 0,0184 |
| Хромосома | обратная | 1468 | 0,0184 |
| pMsip01 | прямая | 20 | 0,00096 |
| pMsip01 | обратная | 54 | 0,00096 |
| pMsip02 | прямая | - | - |
| pMsip02 | обратная | 12 | - |
В случае, если вероятность больше 0,05 – можно говорить о том, что гены распределены случайно. В нашем случае значения как для хромосомы, так и для первой плазмиды значительно отличаются от 0,05 в меньшую сторону. О случайности распределения для второй плазмиды говорить не приходится, так как ни один ген не расположен на комплементарной цепочке.
Из таблицы особенностей получены данные о различных закодированных РНК, результаты представлены в Таблице 5.
| Гены РНК | Количество генов |
|---|---|
| Все гены РНК | 60 |
| Гены тРНК | 49 |
| Гены рРНК | 6 |
| tmRNA | 1 |
| SRP_RNA | 2 |
| RNase_P_RNA | 2 |
Также я провела сравнение количества генов, кодирующих белки и различные РНК, получилось, что в 48,02 раза больше генов, несущих информацию про белки.
Для этого исследования был написан код в Python [СМ 2, программа 2], который считает для каждой ДНК (только для одной цепи, которая имеется в файле с геномом) количество каждого нуклеотида в последовательности, а также частоту его встречаемости. Результаты приведены в Таблице 6.
В данном разделе исследования мы хотели узнать случайное ли распределение нуклеотидов внутри пар A-T G-C, для этого мы снова использовали формулу для определения случайности распределения [СМ 1, лист «Статистика»].
При случайном распределении мы бы получили максимально близкие числа нуклеотидов в паре, в данном случае те пары, у которых значение в 5 столбце выше, чем 0,05, имеют практически равные количества нуклеотидов. К таким относятся G-C пары в каждой молекуле ДНК. То есть второе правило Чаргаффа работает для G-C пар у данной бактерии.
Наоборот, количества аденинов и тиминов сильно различаются во всех молекулах ДНК, что можно заметить из таблицы, ведь при малой вероятности, появляются серьёзные основания полагать, что эффект отражает некоторое природное явление.
Я очень благодарна всем преподавателям биоинформатики за то, что давали нам полезную информацию в течение этого семестра. Результат не заставил долго себя ждать: при исследовании бактерии в данном мини-обзоре я использовала навыки, полученные на занятиях и в ходе выполнения домашних работ.