ФББ 2013-2014
Анализ генома Chlorobium tepidum TLS
Я получила хромосомную таблицу, содержащую информацию о всех генах исследуемой бактерии Chlorobium tepidum TLS. Анализ этой таблицы выполнялся на основе средств Miscrosoft Excel 2003(2007).
Скачать таблицу вы можете по ссылке: NC_002932
Сначала с помощью сортировки отберём только гены с типом "CDS" - это гены, которые кодируют белки. Таблица 1, рисунки 1 и 2 посвящены анализу именно CDS-генов. В таблице 1 представлены статистические данные геному, полученные с помощью стандартных функций Excel (=ОКРУГЛ, =СРЗНАЧ, =СЧЁТЕСЛИ, =МЕДИАНА и др.)
Таблица 1. Основные характеристики протеома и CDS-генов из генома Chlorobium tepidum TLS.
Mean protein length | 280,6 |
Median protein length | 239 |
Minimum protein length | 30 |
Maximum protein length | 1510 |
Mean intergenic distance | 92,2 |
Median intergenic distance | 54 |
Maximum intergenic distance | 3259 |
CDS on direct strand | 1126 |
CDS on reverse strand | 1119 |
Overlapping genes | 361 |
Mean protein length (straight) | 291,8 |
Mean protein length (reverse) | 269,3 |
Maximum protein length (straight) | 1490 |
Maximum protein length (reverse) | 1510 |
Minimum protein length (straight) | 30 |
Minimum protein length (reverse) | 30 |
Overlapping genes (straight) | 184 |
Overlapping genes (reverse) | 177 |
Количество генов и длины белков, кодируемых на прямой и обратной цепи, почти одинаковые, что говорит нам о равноправности обеих цепей. Длина белков изменяется от 30 до 1510 аминокислотных остатков. Большинство коротких белков описаны как "hypotetical protein" - это значит, что они ещё не изучены. Самые короткие белки (30 аа) имеют идентификаторы NP_661142.1 и NP_661998.1. Длинные белки изучены лучше, про них есть больше информации. Самый длинный белок - ДНК-хеликаза (идентификатор - NP_662505.1).
На рисунке 1 представлен график эмпирической функции распределения длин белков. Он показывает соответствие между длинами белков (от 30 до 1510 аа) и частотой встречаемости белков, длины которых меньше определённых значений.
Рис. 1. Эмпирическая функция распределения длин белков из протеома Chlorobium tepidum TLS.
Распределение длин белков также наглядно иллюстрируют рисунок 2, на котором показано распределение длин белков во всём протеоме.
Рис. 2. Гистограмма распределения длин белков Chlorobium tepidum TLS.
Двойная гистограмма на рисунке 3 демонстрирует длины белков, кодируемых на прямой (фиолетовые столбики) и обратной (серые столбики) цепи.
Рис. 3. Двойная гистограмма распределения длин белков Chlorobium tepidum TLS.