Мини-обзор генома и протеома бактерии Scandinavium goeteborgense

Аннотация

Введение

Scandinavium (названный в честь региона в Северной Европе) - род грамотрицательных, факультативных анаэробных, оксидазоотрицательных, палочковидных, подвижных бактерий семейства Enterobacteriaceae. Содержит один вид Scandinavium goeteborgense (названный в честь шведского города Гетеборг). Семейство Enterobacteriaceae представляет собой крупную и таксономически разнообразную группу грамотрицательных палочковидных бактерий класса Gammaproteobacteria и порядка Enterobacteriales. Многие виды Enterobacteriaceae являются важными патогенами человека, обычно несущими переносимые маркеры устойчивости к антибиотикам. Таким образом, таксономическое описание новых членов семейства важно для понимания связанных с ними рисков для здоровья и предотвращения распространения инфекций. Здесь мы представляем новый род семейства Enterobacteriaceae: Scandinavium goeteborgense, выделенный из раневой инфекции взрослого пациента в Швеции со ссылкой на таксономию, анализ генома. Исследование этого нового вида является важной задачей, так как содержит новый вариант гена устойчивости к хинолону (антибактериальный препарат)

Материалы и методы

Длины белков штамма Scandinavium goeteborgense для гистограммы получены из хромосомной таблицы feature_table (находящейся в файле Davydova_genome), скачанной из NCBI по ссылке [2]. Исследование бактерии проводилось на примере штамма CCUG 66741. Гистограмма длин белков построена методом Google Sheets. Также использовались скрипты на языке Python и Bash для подсчета старт- и стоп-кодонов [2]. Python: Код берет на вход информацию из файла формата fna и ищет в последовательности заданные наиболее часто встречающиеся (стандартные) старт- (ATG, TTG, GTG) и стоп-кодоны (TAA, TAG, TGA). Прокариоты значительно чаще, чем эукариоты, используют альтернативные старт-кодоны. Альтернативные старт-кодоны обычно кодируют метионин, когда они находятся в начале белка (даже если, находясь в остальных местах последовательности, они кодируют другую аминокислоту). Это происходит потому, что для инициации трансляции используется специальная транспортная РНК. Антикодоном инициирующей аминоацил-тРНК всегда является CAU, он полностью комплементарен основному старт-кодону AUG и частично комплементарен более редким кодонам. Кроме частично комплементарных GTG и TTG в исключительных случаях в клетках бактерий инициация может начинаться с других триплетов. Эти так называемые «слабые» кодоны могут выполнять свою функцию в комбинации с сильными последовательностями Шайна-Дальгарно или другими структурными элементами, способствующими инициации. У E. coli (представитель того же семейства, что и Scandinavium goeteborgense) в 83 % случаев трансляция начинается с AUG (3542/4284), в 14 % (612) с GUG, в 3 % (103) с UUG и в одном-двух случаях с других кодонов, что мы приближенно и наблюдаем в геноме Scandinavium goeteborgense. То же относится и к стоп-кодонам, у ряда бактерий классические стоп-кодон может кодировать аминокислоту, а самим стоп-кодоном будет являться другая последовательность. К сожалению, используя скрипт на языке программирования Python, очень тяжело предсказать альтернативные вариации, поэтому при подсчете общего количества старт-/стоп-кодонов возникает погрешность на +/- 100 а. к. Bash: Скрипт для старт-кодонов содержит команду cut -c, которая выводит первые 3 символа каждой строки файла. Затем с помощью команды tr мы удаляем все символы переноса строки и заменяем символ ‘>’ на символ переноса строки. Далее выводим 3-5 символы каждой строки, сортируем в алфавитном порядке и выводим уникальные кодоны с их числом встречаемости в последовательности. Скрипт для стоп-кодонов действует по похожему принципу. Сначала с помощью команды rev мы переворачиваем строки (чтобы стоп-кодоны оказались вначале), далее заново пользуемся cut -c для вывода первых трех символов. Затем с помощью команды tr -d мы удаляем все символы переноса строки и снова переворачиваем через rev. Далее заменяем символ ‘]’ (стоит в конце названий) на символ переноса строки. Ещё раз выводим первые три символа каждой строки, сортируем в алфавитном порядке и выводим уникальные кодоны с их числом встречаемости в последовательности. Более успешным и точным оказался скрипт на языке Bash, поэтому он и использовался для построения таблиц и гистограмм.

Поисковые запросы

1. При поиске по названию белка, исключая при этом семейство Enterobacteriaceae, было найдено 76 результатов. Следовательно, этот белок не исключителен лишь для этого семейства.
2. При поиске по имени организма, белка, но исключая название гена, больше белков найдено не было. Получается этот белок кодируется единственным геном qnrB96.
3. При добавлении к 1 пункту условия описания существования белка результаты были найдены только в графе Predicted. Все эти белки описаны на основе предсказания последовательностей, даже не выведения из гомологии, что означает не совсем достоверные данные.