КРАТКИЙ ОБЗОР
БИОИНФОРМАТИКА
Кузьменко Олег
Факультет биоинженерии и биоинформатики, Московский государственный университет имени М. В. Ломоносова, Ленинские горы д. 1 стр. 73, 119234, Москва, Россия
14 декабря 2020 года
В данной работе представлен анализ генома бактерии Legionella jordanis, выполненный с использованием электронных таблиц и методов работы с ними. В ходе работы был проведен анализ нуклеотидного состава генома, созданы таблицы числа генов разных категорий, используемых кодонов, межгенных промежутков и перекрываний генов на прямой и обратной цепи, открытых рамок считывания.
Ключевые слова: геном, протеом, бактерия, Legionella jordanis strain NCTC11533, Excel, emboss
Legionella jordanis, выделенная и описанная Cherry et al. в 1982 году1 и названная в честь реки Иордан, относится к классу Gammaproteobacteria, порядку Legionellales. Она представляет собой тонкие подвижные Грам-негативные палочки 0.3 - 0.9 µm в ширину и 2 - 20 µm в длину1. Они не образуют споры или капсулу, но активно секретируют оксидазу и каталазу1. В отличие от печально известной Legionella pneumophila – опасного патогена, вызывающего острую пневмонию2, - L. jordanis считалась свободноживущей, что оказалось неверно. Попадая в дыхательную систему человека, она может вызвать воспаление или, в худшем случае, пневмонию особого типа - «болезнь легионеров»3. В данной работе был проведен анализ генома и протеома L. jordanis с целью возможного обнаружения его особенностей.
Для анализа геномных и протеомных данных в данной работе использовалась программа Microsoft Excel (2016). Исходный дата-сет был получен с портала NCBI Genome. Для дальнейшей работы данные о геноме были разбиты по ячейкам и переведены в плоскую таблицу. Было произведено объединение информации о кодирующих последовательностях с помощью команды ВПР, таблица была отформатирована и приведена к репрезентативному виду. Информация о нуклеотидах, составляющих геном, была получена с помощью команды wordcount пакета расширения emboss. По полученным данным в Excel был рассчитан GC-состав и построена плоская таблица. Для получения информации о межгенных промежутках(IGRs) в геноме использовалась команда ЕСЛИ, данные затем были отсортированы по цепи и собраны в сводную таблицу. С помощью команды СЧЁТЕСЛИМН данные были отсортированы для построения гистограмм длин IGRs для прямой и обратной цепей. Процедура анализа данных о длинах зон перекрывания генов аналогична вышеописанной для IGRs, однако был дополнительно рассчитано количество перекрывающихся генов. В ходе работы были исследованы характеристики генетического кода бактерии. Частота определенных колонов была получена с помощью команды cusp пакета emboss. По данным затем была создана сводная таблица. Отдельное исследование рамок считывания было выполнено с помощью команды getorf из пакета emboss. По полученным данным также была создана плоская таблица, в которой применялись формулы ЕСЛИ, СЧЁТЕСЛИ, СЧЁТЕСЛИМН. Аналогичные формулы использовались для подсчета числа генов по категориям. В работе с Excel использовалась адресация с помощью $, распространение формул, математические операции. Некоторые таблицы создавались с помощью мастера-импорта, форматировались с помощью сортировок. Кроме того, активно использовались горячие клавиши для копирования-вставки данных: Ctrl+C, Ctrl+V, Ctrl+A, Ctrl+X, распространения формул: Ctrl+R, Ctrl+D, поиска-замены совпадений: Ctrl+F, Ctrl+H.
Были рассчитаны длина генома, количество нуклеотидов каждого типа в нём и GC-состав(таблица 1). Геном Legionella jordanis представлен одной крупной кольцевой молекулой ДНК длиной ~3,13 Mb, что приблизительно соответствует среднестатистическим результатам для Bacteria (среднее ∼3.65 Mb и медиана ∼3.46 Mb)4. По результатам расчета получены сопоставимые количества А и Т, С и G, что подтверждает второе правило Чаргаффа. Рассчитанный GC-состав генома величиной 41,7% сопоставим с GC-составом родственной L.pneumophila(~38%)5. Меньший по величине GC-состав у L.pneumophila, для которой в большей степени характерен паразитический образ жизни, возможно подтверждает гипотезу некоторых исследователей о взаимосвязи образа жизни и GC-состава генома(для свободноживущих видов обычно характерен более высокий GC-состав).6
Таблица 1: Характеристика генома L.jordanis | |||||
длина (bp) | A(шт) | T(шт) | C(шт) | G(шт) | |
---|---|---|---|---|---|
хромосомная ДНК | 3133723 | 917551 | 908210 | 654442 | 653520 |
В данной работы был проведен анализ длин межгенных промежутков(IGRs) для прямой и обратной цепей ДНК. Межгенный промежуток - это расстояние между двумя соседними генами на одной цепи. Было подсчитано, что 47,60% генов на прямой цепи и 49,96% генов на обратной расположены на расстоянии менее 200 bp друг от друга. Было также выявлено, что 36,29% на прямой и 35,97% - на обратной расположены на крупных (>1 Kbp) расстояниях между друг другом. По полученным данным были построены гистограммы для прямой и обратной цепей. (рис.1).
Преобладание коротких IGRs объясняется “компактизацией” генома прокариот для быстрой репликации и объединением генов в опероны для более быстрой транскрипции генов одного метаболического пути. Крупные IGRs возникают в местах нахождения на противоположной цепи кластеров или оперонов кодирующих последовательностей (CDSs).
Ось абсцисс: интервал длины межгенных промежутков
Ось ординат: количество межгенных интервалов в данном интервале длины
Таблица 2: Количество перекрывающихся генов в геноме L.jordanis | |||
Состав генома | Гены с перекрываниями | ||
---|---|---|---|
Хромосома | + | 165 | 11,77% |
- | 208 | 14,08% |
Ось абсцисс: длина перекрытия
Ось ординат: количество перекрытий данной длины
В ходе анализа межгенных промежутков было установлено, что некоторые гены на одной и той же цепи имеют попарные перекрытия, то есть один ген начинается в конце другого. Такие гены составляют чуть больше 10% от всех кодирующих последовательностей (таблица 2). Перекрытие генов является еще одним способом прокариот по компактизации генома, Прослеживается закономерность, что большая часть перекрывающихся генов имеют общими только 3 нуклеотида, которые, вероятно, могут маркировать конец терминирующих и начало upstream- элементов (рис. 2). Так же заметно, что часто встречаются перекрывающиеся участки длиной в 7, 10 и 13 bp.
В таблице codone_usage сопроводительных материалов содержится информация о количестве групп синонимичных кодонов в геноме. Наиболее часто встречающимися аминокислотами, по приведенным данным, являются лейцин, аланин и изолейцин. Данный факт объясним присутствием этих гидрофобных аминокислот в коре всех белков организма. Следующим по количеству кодонов в геноме является серин - важный участник путей передачи сигналов, который часто подвергается пост-трансляционным модификациям7.
Ось абсцисс: интервал длины
Ось ординат: количество ORFs в интервале
В геноме также представлены прочие классы РНК, осуществляющие важные для клетки процессы:
В данной работе был проведен анализ генома и протеома Legionella jordanis. Были выявлены: возможность перекрывания генов на 1 цепи, случайность распределения генов на прямой и обратной цепи. В дальнейшем необходимо подтвердить данные с помощью статистических методов, рассмотреть представленные выше вопросы с помощью альтернативных методов.
Автор выражает благодарности преподавателю факультета биоинженерии и биоинформатики Алексеевскому А.О. за неоценимый вклад в формирование представлений об оформлении научных публикаций, научным сотрудникам кафедры молекулярной биологии биологического факультета: Ломову Н.А, Вьюшкову В.С. за передачу знаний в области молекулярной биологии, которые пригодились в данной работе и будут полезными в будущем.
Таблица. “Анализ генома и протеома L.jordanis”(1,8 Kb, xlsx)