Главная
Назад
Задан неаннотированный фрагмент генома бактерии Regiella insecticola.
Задача состоит в том, что нужно получить фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
Для выполениея этого: Получаем полный протеом E.coli из Swiss-Prot командой:
seqret sw:*_ECOLI
Далее созданы индексные файлы для поиска программами пакета BLAST по этому протеому с помощью команды formatdb.
Вырезан фрагмент АС200764 длиной 7000 нуклеотидов(координаты 14001...21001) в файл ac200764_7000.fasta с помощью команды seqret -sask.
Из полученного фрагмента извлекаем трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов, стандартный для бактерий (bacterial) генетический код, открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
Пользуемся для этого программой getorf:
getorf -sequence ac200764_7000.fasta -table 11 -minsize 240 -find 1
В результате получили файл, содержащий все рамки считывания(11 рамок), удовлетворяющие заданным параметрам.
Далее производится поиск трансляций рамок считывания из выбранного фрагмента по протеому бактерии с помощью программы BLASTP(задан E-value<0.001), которая производит поиск по аминокислотной последовательности в протеоме:
blastall -p blastp -d 3mg1 -i ac200764.orf -e 0.001 -m 8 -o blastp
Создаем книгу Excel, включающую информацию обо всех открытых рамках считывания в выбранном фрагменте генома. Для каждой рамки указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001.
name(ORF) ID start end strand number of similar sequences E-value AC200764_1 RNPA_ECOLI 1116 1457 Straight 2 1,00E-49 AC200764_2 YIDD_ECOLI 1436 1723 Straight 1 5,00E-26 AC200764_3 OXAA_ECOLI 1710 3335 Straight 1 0.0 AC200764_4 LDCA_ECOLI 3365 4594 Straight 1 1,00E-09 AC200764_6 SYI_ECOLI 6100 6999 Straight 3 9,00E-08 AC200764_8 UBIG_ECOLI 5648 4923 Reverse 3 2,00E-105 AC200764_11 DNAA_ECOLI 489 1 Reverse 1 7,00E-57
grep '>' ac200764.orf > script.txt
Гипотетические гены во фрагменте 14001-21001 записи AC200764:
Regiella insecticola 3'---[<=DNAA, 1-489]---------------------------------------------------------[<=UBIG, 4923-5648]-------------5' 5'-----------[=>RNPA, 1116-1457]---[=>OXAA, 1710-3335]---[=>LDCA, 3365-4594]---[=>SYI, 6100-6999]------------3' --------[=>YIDD, 1436-1723]-----(перекрывание)
E.coli 3'---[<=ldcA, 1241389..1242303]------------------[<=dnaA, 3880349..3881752]----------------------------------------------------------5' 5'----------------------------[=>ubiG, 2337589..2338311]----[=>rnpA, 3882516..3882875]--------------[=>oxaA, 3883099..3884745]-------3' -----------[=>yidD, 3882839..3883096]-----(перекрывание)
Как можно видеть из представленных схем, RNPA и YIDD перекрываются в обоих геномах, но длина этого перекрывания разная. Оба гена находятся на прямой цепи, следом расположен ген OXAA, который в геноме Regiella insecticola перекрывается с YIDD. Из этого можно сделать вывод о консервативности расположения этих генов.
Ген DNAA в обоих геномах расположен на прямой цепи, положение UBIG и LDCA различно в этих геномах.