Зачетное задание
Был получен фрагмент генома бактерии Regiella insecticola длиной 7000 нуклеотидов AC192956.
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки кишечной палочки (E.coli штамм K-12). C помощью команды:
getorf -sequence acC.fasta -table 11 -find 1 -minsize 240
-sequence - входной файл
-table - используемый код (11 - bacterial)
-find - тип рамки (1 - от старт-кодона до стоп-кодона)
-minsize - минимальная длина открытой рамки (в нуклеотидах).
был получен набор трансляций всех открытых рамок данной последовательности длиной более 240 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Получилось 11 рамок.
Потом, с помощью программы blastp были найдены вероятно гомологичные участки в полном протеоме E.coli K-12 ко всем полученным трансляциям открытых рамок. (выходной файл)
С помощью скрипта было подсчитано число находок для каждой трансляции. Данные были экспортированы в Excel.
Трансляции открытых рамок, для которых были найдены вероятные гомологи в протеоме E.coli будем считать вероятными генами. Была построена схема вероятного расположения генов у Regiella insecticola на данном участке генома:
3'-------------------------------------------------------------------------------------------------------------------------------------------------5'
5'---[=> hmp, 611-1144]-------------[=> ubiX, 2036-2611]--[=> purL, 2694-4220]--[=> cvpA, 4261-4755]--[=> dedD, 4773-5339]--[=> folC, 5449-6714]---3'
[=> hmp, 1095-1817]
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, xxxX — краткое название самого сходного белка E. coli, а 5449-6714 — это координаты границ открытой рамки во фрагменте. Cхема расположения соответствующих генов у E.coli выглядит следующим образом:
3'-------------------------------------------------------------------------------------------------------------------[<= hmp, 2683857-2685047]-----5'
5'-----[=> ubiX, 2426079-2426648]--[=> cvpA, 2428297-2428785]-[=> dedD, 2429044-2429706]-------------------------------[=> purL, 2689678-2693565]--3'
[=> folC, 2429696-2430964]
Так как две первые открытые рамки Regiella insecticola на данном участке генома перекрываются, кодируют, якобы, один белок E.coli (hmp_ecoli), у них не совпадают рамки считывания (это исключает возможность того, что это все-таки один ген), то скорее всего одна из этих рамок, а может и обе, не имеют отношения к гену hmp_ecoli. Расположение остальных предсказанных генов близко к расположению их гомологов у E.coli, это, во-первых, увеличивает вероятность того, что эти участки действительно являются генами у Regiella insecticola, во-вторых, позволяет говорить о сохранении взаимного расположения гомологичных генов у родственных бактерий.
2009
©