ФББ 2013-2014

Анализ генома Chlorobium tepidum TLS

Я получила хромосомную таблицу, содержащую информацию о всех генах исследуемой бактерии Chlorobium tepidum TLS. Анализ этой таблицы выполнялся на основе средств Miscrosoft Excel 2003(2007).

Скачать таблицу вы можете по ссылке: NC_002932

Сначала с помощью сортировки отберём только гены с типом "CDS" - это гены, которые кодируют белки. Таблица 1, рисунки 1 и 2 посвящены анализу именно CDS-генов. В таблице 1 представлены статистические данные геному, полученные с помощью стандартных функций Excel (=ОКРУГЛ, =СРЗНАЧ, =СЧЁТЕСЛИ, =МЕДИАНА и др.)

Таблица 1. Основные характеристики протеома и CDS-генов из генома Chlorobium tepidum TLS.

Mean protein length 280,6
Median protein length 239
Minimum protein length 30
Maximum protein length 1510
Mean intergenic distance 92,2
Median intergenic distance 54
Maximum intergenic distance 3259
CDS on direct strand 1126
CDS on reverse strand 1119
Overlapping genes 361
Mean protein length (straight) 291,8
Mean protein length (reverse) 269,3
Maximum protein length (straight) 1490
Maximum protein length (reverse) 1510
Minimum protein length (straight) 30
Minimum protein length (reverse) 30
Overlapping genes (straight) 184
Overlapping genes (reverse) 177

Количество генов и длины белков, кодируемых на прямой и обратной цепи, почти одинаковые, что говорит нам о равноправности обеих цепей. Длина белков изменяется от 30 до 1510 аминокислотных остатков. Большинство коротких белков описаны как "hypotetical protein" - это значит, что они ещё не изучены. Самые короткие белки (30 аа) имеют идентификаторы NP_661142.1 и NP_661998.1. Длинные белки изучены лучше, про них есть больше информации. Самый длинный белок - ДНК-хеликаза (идентификатор - NP_662505.1).

На рисунке 1 представлен график эмпирической функции распределения длин белков. Он показывает соответствие между длинами белков (от 30 до 1510 аа) и частотой встречаемости белков, длины которых меньше определённых значений.

Рис. 1. Эмпирическая функция распределения длин белков из протеома Chlorobium tepidum TLS.

Распределение длин белков также наглядно иллюстрируют рисунок 2, на котором показано распределение длин белков во всём протеоме.

Рис. 2. Гистограмма распределения длин белков Chlorobium tepidum TLS.

Двойная гистограмма на рисунке 3 демонстрирует длины белков, кодируемых на прямой (фиолетовые столбики) и обратной (серые столбики) цепи.

Рис. 3. Двойная гистограмма распределения длин белков Chlorobium tepidum TLS.