РЕЗЮМЕ

Одним из эффективных инструментов познания живой природы является анализ генетической информации её представителей. В своей работе я обозреваю некоторые основные свойства генома и протеома фитопатогенной бактерии Spiroplasma citri, пользуясь знаниями и умениями, полученными в первом семестре.

Я выяснил, что белок-кодирующие последовательности с небольшим предпочтением кодируются в одном направлении (в таблице особенностей соответствует “+”). Второе правило Чаргаффа почему-то не выполняется для генома Spiroplasma citri.

КЛЮЧЕВЫЕ СЛОВА:

SPIROPLASMA CITRI, CITRUS STUBBORN DISEASE, ФИТОПАТОЛОГИЯ, ГЕНОМ БАКТЕРИИ

ВВЕДЕНИЕ

Spiroplasma citri является сельскохозяйственным вредителем. Это паразит растений рода Цитрусовые, вызывающий, так называемую, stubborn disease of citrus. Симптомы: обесцвеченные плоды аномальной формы уменьшенного размера, листья обесцвеченные и аномальной формы, растение в общем подавлено, образуется «метла ведьмы».

Бактерия распространена в Африке, Восточной Азии, Северной Америке, на Новой Зеландии, в южной части Европы, но не в Южной Америке. Spiroplasma citri подробно изучена в связи с её сельскохозяйственным значением. Это отражено на странице бактерии на сайте международного центра агрокультуры и биологических наук. [1]

Типичным для представителей рода Spiroplasma является отсутствие клеточной стенки, паразитический образ жизни, спиральная морфология клетки. [2] У S. citri 1 хромосома, длина генома 1,6 млн. п.н. В геноме с которым я работал также приведены последовательности двух плазмид.

Систематическое положение:

citruses
Рисунок 1. Маленькие, асимметричные, неравномерно окрашенные плоды. Правый - плод без патологии. [1]

МАТЕРИАЛЫ И МЕТОДЫ

Я анализировал последовательность генома (сопроводительный материал 1) и таблицу признаков генома(сопроводительный материал 2) Spiroplasma citri при помощи сервисов Google Colaboratory и Google Таблицы. В Google Colaboratory я написал программы на языке Python.

Для работы с протеомом я пользовался стандартными функциями Google Таблиц:

Для статистического анализа я использовал критерий χ-квадрат в силу его простоты, я постарался соблюсти правомерность его применения в своей работе, однако в результате я не уверен.

citruses
Рисунок 2. Формула расчёта хи-квадрат. [1]
E - ожидаемое значение, O - наблюдаемое, n в обоих случаях применения формулы в моей работе равно 2, это число классов в которые мог попасть объект (белок мог быть на + или на - цепи, из всех букв A и T каждая отдельная буква является либо A, либо T). χ-квадрат сравнивается с табличным значением из книги[3].

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

hist
Рисунок 3. Гистограмма распределения длин CDS в геноме Spiroplasma citri. (сопроводительные материалы 6)
На гистограмме (рисунок 2) можно увидеть пики на значениях длин белков, равных 70, 315, 420 аминокислот. Пик коротких белков намного выше, чем пики более длинных. Существование пиков можно объяснить наличием в протеоме бактерии двух принципиально разных типов белков: более коротких и более длинных. Для функции длинных белков в клетке важен их размер. Например, если это димерный белок, обе субъединицы которого являются образует одна аминокислотная нить. Первый пик соответствует частому значению длины CDS обычного белка, второй и третий пик - часто встречающиеся значения CDS длинных белков.

Распределение CDS (белок-кодирующих последовательностей), псевдогенов, генов разных типов РНК представлено в таблицах 2 и 3.

На прямой цепи встречается 908 CDS, на обратной цепи 778. Я принял за нулевую гипотезу, что отличие в количестве незначительно. Применил критерий 2 χ для уровня значимости 0,05: ожидаемые количества белков на обеих цепях - среднее арифметическое - 843. 2 χ = 10,024. А критическое значение при уровне значимости 0,05 равно 3,841. Наблюдается сильное превышение порога, значит следует отвергнуть нулевую гипотезу как маловероятную. Количество белков, закодированное на прямой и обратной цепи значительно различается.

Таблица 2. Распределение последовательностей разного назначения на прямой и обратной цепи хромосомы Spiroplasma citri.
Тип Количество на прямой цепи Количество на обратной цепи
CDS 908 778
псевдогены 130 113
tRNA 12 20
rRNA 3 0
tmRNA 0 1
SRP_RNA 2 0
Таблица 3. Распределение белок-кодирующих последовательностей и псевдогенов на прямой и обратной цепи плазмид Spiroplasma citri.
Название плазмиды, тип последовательности Количество на прямой цепи Количество на обратной цепи
pSCI15 CDS: 2 12
pSCI15 псевдогены: 2 3
pSCI26 CDS: 11 3
pSCI26 псевдогены: 3 2

Обзор генома:

Геном имеет длину 1599709 нуклеотидов в цепи ДНК единственной основной хромосомы, также есть две плазмиды, названные plasmid pSCI15, длиной 14987 нуклеотидов и plasmid pSCI26, длиной 26182 пар оснований. Названия, длины и CG-состав цепей днк представлен в таблице 4.

Таблица 4. Перечисление названия и длины всех ДНК генома
Название цепи ДНК Количество нуклеотидов в ней Доля нуклеотидов G и C в составе
NZ_CP013197.1 Spiroplasma citri strain R8-A2 chromosome, complete genome 1599709 0.2556
NZ_CP013199.1 Spiroplasma citri strain R8-A2 plasmid pSCI15, complete sequence 14987 0.2463
NZ_CP013198.1 Spiroplasma citri strain R8-A2 plasmid pSCI26, complete sequence 26182 0.2279

Также я проверил нуклеотидный состав генома (вместе с плазмидами) и соблюдение второго правила Чаргаффа. Нуклеотидов кроме A, T, G, C в геноме нет, встречаемость каждой буквы в последовательности генома приведена в таблице:

Таблица 5. Количество нуклеотидов каждого типа в геноме Spiroplasma citri.
A T G C
618448 603847 213978 204605

Правило Чаргаффа не соблюдается. Рассмотрим его для пары A и T. Нулевая гипотеза - количество A и количество T незначительно различается. Среднее арифметическое равно 611147,5. Разность среднего и реального значения равно 7300,5. 2 χ = 174,4. Это больше 3,841. Значит различие в количестве A и T значительное.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

  1. Файл с последовательностью генома GCF_001886855.1_ASM188685v1_genomi c.fna.gz на сайте https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/886/855/GCF_001886855.1_ASM188685v1/
  2. Таблица особенностей генома https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/886/855/GCF_001886855.1_ASM188685v1/GCF_001886855.1_ASM188685v1_feature_table.txt.gz
  3. Программа 1 https://drive.google.com/file/d/1XC8SLDRVHWxHnpkM1bSGFzSK6JqCIdAz/view?usp=sharing
  4. Программа 2 https://drive.google.com/file/d/1XC8SLDRVHWxHnpkM1bSGFzSK6JqCIdAz/view?usp=sharing
  5. Программа 3 https://drive.google.com/file/d/1qmTiDjHO-Vg84rz4d2-sO0UEXByRME68/view?usp=sharing
  6. https://docs.google.com/spreadsheets/d/1zcsLGTSm9ca6ebYw1YgNWt5BTwdDiDTCd9CRrBj4ijE/edit?usp=sharing
  7. Практическая биология для олимпиадников, Издательство МЦНМО, 2019. с.336, таблица 14. Таблица Фишера (p = 0,05) https://drive.google.com/file/d/1D204iSxO12xlSXp-eeqHnVU8O1Z91sl0/view?usp=sharing

СПИСОК ЛИТЕРАТУРЫ

  1. [1] cabi.org/isc/datasheet/50977
  2. [2] en.wikipedia.org/wiki/Spiroplasma
  3. [3] Практическая биология для олимпиадников, Издательство МЦНМО, 2019. с.336, таблица 14.
  4. [4] Таблица Фишера (p = 0,05) (отрывок есть в сопроводительных материалах 7)