Signals & Motifs
Последовательность Шайна-Дальгарно в геноме Sphingobium indicum
В данной работе был произведен поиск последовательности Шайна-Дальгарно в геноме штамма B90A альфа-протеобактерии Sphingobium indicum. Средой обитания данного вида является почва. Oтличительной чертой семейства является наличие гликосфинголипидов на внешней мембране[1], чем и обязано название семейства. Более подробное описание бактерии и обзор ее генома доступен по ссылке.
Последовательность Шайна-Дальгарно - это сайт комплементарного связывания малой субъединицы рибосомы у прокариот. Она находится на рассоянии примерно 8 нуклеотидов к 5'-концу от старт-кодона.
Непосредственно поиск последовательности осуществлялся по (+)-цепи всех белок-кодирующих генов хромосомы. Список номеров доступа к генам был составлен с помощью библиотеки Pandas.
Генерация ПВМ
Для генерации ПВМ были выбраны хромосомные гены на прямой цепи с определенным (не гипотетическим) продуктом трансляции. Из таблицы генов из NCBI (ссылка на скачивание) с помощью Excel были выбраны 266 белок-кодирующих генов с достоверно определенным продуктом на прямой цепи хромосомы, а также создан файл, содержащий названия продуктов и координаты последовательностей. К названиям были приписаны порядковые номера в начале во избежание одинаковых имен. Все полученные последовательности имели продукт длиной больше 99 аминокислот. На вход скрипту был подан этот файл, а также файл сборки генома из NCBI (ссылка на скачивание; была использована только последовательность хромосомы). По итогу работы скрипта был получен файл с последовательностями генов включая позиции от -40 до начала трансляции.
Полученные последовательности были поданы на вход веб-версии программы MEME. Параметры для поиска мотивов в нуклеотидной последовательности: 1 или 0 вхождений мотива в поледовательности, 3 возможных мотива в последовательности (все основные опции по умолчанию). Продвинутые опции были оставлены по умолчанию, кроме длины последовательности (6-10 пн), а также поиск производился только по данной цепи.
MEME не нашел ничего похожего на последовательность Шайна-Дальгарно среди наилучших трех мотивов. Три лучших найденных мотива показаны на рис. 1.
Далее был произведен новый поиск мотивов с теми же параметрами, но уже по последовательностям от -40 до -1 от начала трансляции. Было найдено три мотива, из которых второй был последовательностью Шайна-Дальгарно. Она в основном располагалась ближе к сайту начала трансляции (на рис. 4 обозначена цианом).
ПВМ, показанная на таблице ниже была создана на основе выделенных MEME последовательностей, как в предыдущей работе.
1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|
A | 1.2827536821790504 | -1.11514159061932 | -1.11514159061932 | 1.2827536821790504 | 0.1637325218797335 | 1.2827536821790504 |
C | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 |
G | -1.3737155789130304 | 1.02417969388534 | 1.02417969388534 | -1.3737155789130304 | 0.755397572564043 | -1.3737155789130304 |
T | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 |
Проверка ПВМ
На вход FIMO подавалась полученная при последней итерации MEME модель последовательности Шайна-Дальгарно в виде файла расширения meme. Верхняя граница для p-значения не была выставлена. Проверка полученного мотива осуществлялась на (-)-цепи той же хромосомы, по которой производилось обучение: в FIMO была загружена обратная комплементарная цепь и выбрана опция поиска только по данной цепи. Таким образом, ни одно вхождение мотива, использовавшееся для обучения, не повторялось в тестовой выборке. Результат работы FIMO доступен в таблице.
Далее была оценена доля ложноположительных находок как разность единицы и отношения к числу всех находок тех, что содержались в промежутке от -1 до -40 от сайта начала трансляции генов на (-)-цепи, кодирующих белки (реальные или гипотетические). Тремя генами рРНК на (-)-цепи было решено пренебречь. Доля ложноположительных находок составила 52.04%. Она была рассчитана с помощью скрипта с учетом расположения на (-)-цепи.
Библиография
[1] Garrity GM, Brenner DJ, Krieg NR et al. (2005). "Bergey's Manual of Systematic Bacteriology. Two The Proteobacteria, Part C: The Alpha-, Beta-, Delta-, and Epsilonproteobacteria". New York, New York: Springer.