Signals & Motifs

Последовательность Шайна-Дальгарно в геноме Sphingobium indicum

В данной работе был произведен поиск последовательности Шайна-Дальгарно в геноме штамма B90A альфа-протеобактерии Sphingobium indicum. Средой обитания данного вида является почва. Oтличительной чертой семейства является наличие гликосфинголипидов на внешней мембране[1], чем и обязано название семейства. Более подробное описание бактерии и обзор ее генома доступен по ссылке.

Последовательность Шайна-Дальгарно - это сайт комплементарного связывания малой субъединицы рибосомы у прокариот. Она находится на рассоянии примерно 8 нуклеотидов к 5'-концу от старт-кодона.

Непосредственно поиск последовательности осуществлялся по (+)-цепи всех белок-кодирующих генов хромосомы. Список номеров доступа к генам был составлен с помощью библиотеки Pandas.

Генерация ПВМ

Для генерации ПВМ были выбраны хромосомные гены на прямой цепи с определенным (не гипотетическим) продуктом трансляции. Из таблицы генов из NCBI (ссылка на скачивание) с помощью Excel были выбраны 266 белок-кодирующих генов с достоверно определенным продуктом на прямой цепи хромосомы, а также создан файл, содержащий названия продуктов и координаты последовательностей. К названиям были приписаны порядковые номера в начале во избежание одинаковых имен. Все полученные последовательности имели продукт длиной больше 99 аминокислот. На вход скрипту был подан этот файл, а также файл сборки генома из NCBI (ссылка на скачивание; была использована только последовательность хромосомы). По итогу работы скрипта был получен файл с последовательностями генов включая позиции от -40 до начала трансляции.

Полученные последовательности были поданы на вход веб-версии программы MEME. Параметры для поиска мотивов в нуклеотидной последовательности: 1 или 0 вхождений мотива в поледовательности, 3 возможных мотива в последовательности (все основные опции по умолчанию). Продвинутые опции были оставлены по умолчанию, кроме длины последовательности (6-10 пн), а также поиск производился только по данной цепи.

MEME не нашел ничего похожего на последовательность Шайна-Дальгарно среди наилучших трех мотивов. Три лучших найденных мотива показаны на рис. 1.

Рис. 1 — найденные после первой итерации мотивы

Далее был произведен новый поиск мотивов с теми же параметрами, но уже по последовательностям от -40 до -1 от начала трансляции. Было найдено три мотива, из которых второй был последовательностью Шайна-Дальгарно. Она в основном располагалась ближе к сайту начала трансляции (на рис. 4 обозначена цианом).

Рис. 2 – найденные после второй итерации мотивы
Рис. 3 – Вхождения последовательности Шайна-Дальгарно
Рис. 4 – Позиции последовательности Шайна-Дальгарно

ПВМ, показанная на таблице ниже была создана на основе выделенных MEME последовательностей, как в предыдущей работе.

Табл. 1 – ПВМ последовательности Шайна-Дальгарно
1 2 3 4 5 6 7
A 1.2827536821790504 -1.11514159061932 -1.11514159061932 1.2827536821790504 0.1637325218797335 1.2827536821790504
C -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304
G -1.3737155789130304 1.02417969388534 1.02417969388534 -1.3737155789130304 0.755397572564043 -1.3737155789130304
T -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304

Проверка ПВМ

На вход FIMO подавалась полученная при последней итерации MEME модель последовательности Шайна-Дальгарно в виде файла расширения meme. Верхняя граница для p-значения не была выставлена. Проверка полученного мотива осуществлялась на (-)-цепи той же хромосомы, по которой производилось обучение: в FIMO была загружена обратная комплементарная цепь и выбрана опция поиска только по данной цепи. Таким образом, ни одно вхождение мотива, использовавшееся для обучения, не повторялось в тестовой выборке. Результат работы FIMO доступен в таблице.

Далее была оценена доля ложноположительных находок как разность единицы и отношения к числу всех находок тех, что содержались в промежутке от -1 до -40 от сайта начала трансляции генов на (-)-цепи, кодирующих белки (реальные или гипотетические). Тремя генами рРНК на (-)-цепи было решено пренебречь. Доля ложноположительных находок составила 52.04%. Она была рассчитана с помощью скрипта с учетом расположения на (-)-цепи.

Библиография

[1] Garrity GM, Brenner DJ, Krieg NR et al. (2005). "Bergey's Manual of Systematic Bacteriology. Two The Proteobacteria, Part C: The Alpha-, Beta-, Delta-, and Epsilonproteobacteria". New York, New York: Springer.