Главная
Семестры
Обо мне
Ссылки

Данные по геному бактерии Deinococus radiodurans R1

Файлы можно скачать по ссылке ниже:

  1. Excel-файл с информацией о геноме в целом.
  2. Excel-файл с информацией о квазиоперонах и пересечениях генов.

Краткие обозначения, используемые в файле и ниже:
  1. Сhr1 - первая хромосома.
  2. Chr2 - вторая хромосома.
  3. MP1 - плазмида MP1.
  4. CP1 - плазмида CP1.
  5. CDS - совокупность белковых генов участка ДНК.
  6. RNA - совокупность РНКовых генов участка ДНК.
Ниже представлены графические результаты моей работы, все расчеты в файле.

Таблица 1
Хромосома 1 Хромосома 2 Плазмида MP1 Плазмида CP1 Всего
Количество квазиоперонов 1225 213 56 15 1509
Пересечения внутри цепи 443 107 36 9 595
Пересечения между цепями 105 11 3 1 120
Пересечений всего 548 118 39 10 715
Всего генов 2685 369 131 39 3224

Количество квазиоперонов в хромосомах и плазмидах (пороговое расстояние 100, по стандарту). Я считал гены пересекающимися, если координаты конца предыдущего гены совпадали или были больше, чем координаты начала следующего. Рассматривались только белковые гены.

Рисунок 1

На гистограмме представлено распределение белков различных участков ДНК по длинам. Из этого графика видно, что наибольшее количество белков сосредоточено в хромосоме 1. Наибольшее количество белков сосредоточено в диапазоне длины от 101 до 350 аминокислот.

Рисунок 2

Гистограмма процентного распределения белков по длинам для каждого участка ДНК позволяет понять, белки какой длины преобладают в той или иной хромосоме или плазмиде. Так например, плазмида MP1 имеет большое количество белков высокой длины (>901). А у плазмиды CP1 есть 5 диапазонов длин, содержащих наибольшее количество белков (>10), при этом по одному из них процентное содержание больше 20 процентов.

Рисунок 3

Из гистограммы видно, что гены преимущественно располагаются на прямой цепи, и только для РНК генов первой хромосомы это не выполнятеся. Стопроцентный показатель у РНК генов второй хромосомы объясняется невысоким общим количеством генов (всего 1 ген).

Рисунок 4

Из гистограммы видно, что наибольшее количество генов имеет длину кратную 3 (>95%). Однако, если мы посмотрим отдельно на белковые и РНКовые гены, то увидим огромную разницу: для белковых генов характерна делимость на 3, а для РНКовых нет (<20% для РНК генов хромосомы 1). О возможных причинах этого поговорим позже.

Рисунок 5

Гипотезу о том, что гены распределены случайно с вероятностью 0.5 проверили с помощтю биномиального распределения (все формулы в файле). Рассматривались только белковые гены. Реузльтаты видны в гистограмме, где синим цветом обозначены контрольные значения в 0.05. Все значения выше контрольного считаются подтверждающими гипотезу и обозначены зеленым, все значения ниже - красным. Гипотеза подтвердилась для первой хромосомы и плазмиды CP1.

Рисунок 6

На графике показано пересечение генов между комплементарными цепями в хромосоме 1. Здесь и далее по оси Х отложена длина участка пересечения, причем нулю соответствует пересечение на 1 нуклеотид, так как расчет проводился по формуле координаты конца минус координаты начала. По оси У - количество генов с таким пересечением. Значение быстро падает от длины пересечения в 3 (4 нуклеотида) к 4, а потом плавно снижается. Далее 30 не рассматривалось.

Рисунок 7

Для хромосомы 2 и плазмид количество пересечений невелико. Их количество плавно снижается.

Рисунок 8

Пересечение генов внутри цепей у хромосом показывает очень интересную закономерность: после длины пересечения в 3 количество пересекающихся генов резко падает, а потом изменяется незначительно.

Рисунок 9

Закономерность, выявленная для хромосом подтверждается и для плазмид.

Рисунок 10

Здесь и в последующих трех графиках рассматривали, как изменилось бы количество квазиоперонов при изменении расстояния порога. Рассматривали значения порога от 0 до 200 с шагом 5. Как и ожидалось, количество квазиоперонов падает при уменьшении порога и увеличивается при его увеличении.

Рисунок 12

Наблюдаем все сказанное выше для хромосомы 1.

Рисунок 13

Наблюдаем все сказанное выше для хромосомы 1.

Рисунок 14

Наблюдаем все сказанное выше для хромосомы 1.

Из рисунка 4 видно, что практически все гены, кодирующие белки, имеют длину кратную 3, и большинство генов, кодирующих РНК, не имеют данного свойства. Я считаю, что основная причина этого - интроны.
Интрон - любая последовательность нуклеотидов в гене, которая удаляется в процессе слайсинга и не содержится в финальной цепи РНК. Интроны найдены в генах большинства организмов и многих вирусов. Интроны встречаются в генах, кодирующих рРНК, тРНК и белки. Длина интронов может не делиться на 3.
Хотя интроны и характерны в основном для эукариот, но прокариоты тоже имеют интроны. Интроны прокариот вырезаются в процессе автослайсинга. Исходя из рисунка 4 можно судить, что интроны практически не характеры для белков, однако часто встречаются у РНКовых генов.

Источники:

  1. Википедия. Intron.
  2. Википедия. Интрон.