Клещенко М.Д.
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М. В. Ломоносова
Methylovorus glucosetrophus SIP3-4 – бактерия, относящаяся к семейству Methylophilaceae. Оно включает в себя 4 рода, все представители которых – повсеместно распространенные облигатные или факультативные метилотрофы из наземных или пресноводных сред. Данная бактерия использует метиламин. Её геном кодирует ферменты: метанолдегидрогеназа, малатдегидрогеназа. Было установлено, что эти они являются отличительными для первичного окисления субстрата у этого вида[2]. Вероятное практическое применение:
Для анализа бактерии использовались:
Расчеты проводились в программах Excel и Python:
Из таблицы особенностей мы узнали, что геном Methylovorus glucosetrophus SIP3-4 состоит из одной хромосомы и двух плазмид (pMsip01, pMsip02). Из данных о сборке генома можно узнать GC-состав, однако точность его определения мала, поэтому посчитаем значения с помощью программы, написанной в Python [СМ 2, программа 1]. Сведения о длине и GC-составе ДНК можно узнать из Таблицы 1.
ДНК | Длина, п.н. | GC-состав, % |
---|---|---|
Хромосома | 2995511 | 0.54860 |
pMsip01 | 76680 | 0.45713 |
pMsip02 | 9816 | 0.47407 |
GC-состав генома свидетельствует о том, что бактерия проживает в умеренных условиях.
На основании таблицы особенностей был проведен анализ данных о белках протеома, а также построена гистограмма, отражающая количественное распределение белков разной длины. В Таблице 2 приведены данные о диапазоне длин белков, а также среднем и медианном значениях.
Показатель | Число аминокислотных остатков |
---|---|
Минимальная длина | 23 |
Максимальная длина | 2907 |
Средняя длина | 322,32 |
Медиана | 268 |
Как видно из Рисунка 1, в диапазоне 143-183 аминокислотных остатков наблюдается пик. Распределение напоминает положительно скошенное распределение.
На горизонтальной оси располагаются интервалы, соответствующие количеству аминокислот, а на вертикальной оси – количество белков, длины которых попадают в данный диапазон.
Далее мною был проведен анализ белков по их функциям, результаты приведены в Таблице 3. Исходя из приведенных данных о том, что гипотетические белки составляют целых 14,16%, можем сделать вывод что геном изучен не до конца, ведь средняя длина таких белков составляет 189 аминокислотных остатков, медианное значение чуть меньше – 156, а самый длинный белок и вовсе 1452. Исходя из гистограммы, обсужденной выше, можно сделать вывод, что неизученными остаются белки, которые могут выполнять действительно важные функции, так как основную массу белков составляют протеины именно такой длины.
Тип белков | Количество белков | Доля белков, % |
---|---|---|
Все белки | 2881 | 100,00 |
Рибосомальные | 59 | 2,05 |
Транспортные | 174 | 6,04 |
Гипотетические | 408 | 14,16 |
Также был проведен анализ расположения генов, кодирующих белки, на прямой и комплементарной цепочках ДНК для каждой из молекул и рассчитана вероятность того, что при случайном распределении генов по двум цепочкам мы получим такую же или большую разницу между количествами генов на двух цепочках.
Молекула ДНК | Цепь | Количество генов | Вероятность случайного распределения |
---|---|---|---|
Хромосома | прямая | 1342 | 0,0184 |
Хромосома | обратная | 1468 | 0,0184 |
pMsip01 | прямая | 20 | 0,00096 |
pMsip01 | обратная | 54 | 0,00096 |
pMsip02 | прямая | - | - |
pMsip02 | обратная | 12 | - |
В случае, если вероятность больше 0,05 – можно говорить о том, что гены распределены случайно. В нашем случае значения как для хромосомы, так и для первой плазмиды значительно отличаются от 0,05 в меньшую сторону. О случайности распределения для второй плазмиды говорить не приходится, так как ни один ген не расположен на комплементарной цепочке.
Из таблицы особенностей получены данные о различных закодированных РНК, результаты представлены в Таблице 5.
Гены РНК | Количество генов |
---|---|
Все гены РНК | 60 |
Гены тРНК | 49 |
Гены рРНК | 6 |
tmRNA | 1 |
SRP_RNA | 2 |
RNase_P_RNA | 2 |
Также я провела сравнение количества генов, кодирующих белки и различные РНК, получилось, что в 48,02 раза больше генов, несущих информацию про белки.
Для этого исследования был написан код в Python [СМ 2, программа 2], который считает для каждой ДНК (только для одной цепи, которая имеется в файле с геномом) количество каждого нуклеотида в последовательности, а также частоту его встречаемости. Результаты приведены в Таблице 6.
В данном разделе исследования мы хотели узнать случайное ли распределение нуклеотидов внутри пар A-T G-C, для этого мы снова использовали формулу для определения случайности распределения [СМ 1, лист «Статистика»].
При случайном распределении мы бы получили максимально близкие числа нуклеотидов в паре, в данном случае те пары, у которых значение в 5 столбце выше, чем 0,05, имеют практически равные количества нуклеотидов. К таким относятся G-C пары в каждой молекуле ДНК. То есть второе правило Чаргаффа работает для G-C пар у данной бактерии.
Наоборот, количества аденинов и тиминов сильно различаются во всех молекулах ДНК, что можно заметить из таблицы, ведь при малой вероятности, появляются серьёзные основания полагать, что эффект отражает некоторое природное явление.
Я очень благодарна всем преподавателям биоинформатики за то, что давали нам полезную информацию в течение этого семестра. Результат не заставил долго себя ждать: при исследовании бактерии в данном мини-обзоре я использовала навыки, полученные на занятиях и в ходе выполнения домашних работ.