Справа представлена гистограмма распределения длин белков в протеоме бактерии (Fig. 2.). Из гистограммы видно, что наибольшее количество белков имеют длину от 37 до 67 аминокислотных остатков. Значения длин находятся в пределах от 37 до 2893 остатков.
Рассмотрим, как распределены длины в наиболее частотном отрезке – гистограмма Fig. 3. Видно, что 23 белка имеют длину 39 остатков, что является максимумом.
Псевдогены – это части ДНК, которые связаны с реальными генами. Псевдогены утратили некоторую функциональность относительно полного гена в клеточной экспрессии гена или способности кодировать белок. В протеоме бактерии Helicobacter typhlonius, судя по данным с сайта NCBI, псевдогенов нет.[1] Выше представлена таблица, которая показывает процентное соотношение генов, кодирующих белки, рРНК и тРНК.
Protein coding | tRNA | rRNA | |
---|---|---|---|
Количество | 2117 | 39 | 4 |
Процент, % | 98,01 | 1,806 | 0,185 |
Гипотетический белок - это белок, существование которого было предсказано, но для которого нет экспериментальных доказательств того, что он экспрессируется. В плоской таблице генов такие белки в названии имеют “hypothetical”. В протеоме H.typhlonius процент таких белков достаточно большой, что говорит о том, что бактерия плохо изучена.
Все белки | Количество гипотетических белков | Процентное содержание |
---|---|---|
2160 | 751 | 34,77% |
Ниже представлена таблица (Table. 3.), показывающая процентное содержание генов, кодирующих рибосомальные белки и рРНК. Ссылка на таблицу с их названиями находится в сопроводительных материалах.[2]
Все белки | Количество рибосомальных белков и рРНК | Процентное содержание |
---|---|---|
2160 | 65 | 3% |
Проверим гипотезу о том, что распределение по прямой и обратной цепи неслучайно. Для этого посчитаем количество генов на прямой и обратных цепях и вычислим вероятность по формуле BINOM.DIST. Получили вероятность равную 0,0000016 – значит, распределение по цепям случайно. (см. Table. 4.)
Количество + | Количество - | Вероятность неслучайного распределения |
---|---|---|
968 | 1192 | 0,0000016 |
Посмотрим на распределение длин межгенных участков. Для этого построим гистограмму (Fig. 9.)
Из гистограммы видно, что наибольше количество генов имеют длину в промежутке от 71 до 171. Также можно заметить, что длинные межгенные промежутки встречаются крайне редко: в диапазоне от 3271 до 8771 лежат всего лишь 7 генов.
1. Плоская таблица генов (лист chr_table – изначальная таблица с сайта)
2.Таблица с названиями рибосомальных белков и рибосомальных РНК:
1. Helicobacter typhlonius sp. nov., a Novel Murine Urease-Negative HelicobacterSpecies Craig L. Franklin, Peter L. Gorelick, Lela K. Riley, Lela K. Riley, Floyd E. Dewhirst, Robert S. Livingston, Jerrold M. Ward, Catherine S. Beckwith, James G. Fox; DOI: 10.1128/JCM.39.11.3920-3926.2001. (ссылка)