8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!
Всё на свете является чудом!

 

Самостоятельная работа по предсказанию генов

В работе нам необходимо рассмотреть неаннотированный фрагмент генома бактерии Ornithinibacillus scapharcae длиной 7000 нуклеотидов и определить, где в этом фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).

Для выполнения задания был взят фрагмент генома из записи EMBL aewh
01000006 , позиции 40001 - 47000. Разделим задание на несколько пунктов:

1.
Фрагмент был получен командой
seqret "embl:aewh01000006 [40001:47000]"
2. Далее из этого фрагмента при помощи getorf был получен набор открытых рамок считывания длиной не менее 240 нуклеотидов, причем рамкой считывания считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном, и использовался бактериальный генетический код. Набор открытых рамок был получен командой:
getorf aewh01000006.fasta aewh01000006.orf -minsize 240 -table 11 -find 1 
3. Кроме того, был получен полный протеом BACSU из Swissprot, для этого вводилась команда:
seqret sw:*_BACSU -outseq bacsu.fasta 
Также были созданы индексные файлы BLAST, командой:
makeblastdb -in bacsu.fasta -out bacsu -dbtype prot  
4.
Далее по протеому BACSU производился поиск полученных ранее открытых рамок считывания при помощи программы blastp (поиск белковых последовательностей в банке белков). Допустимые значения E-value < 0.001:
blastp -db bacsu -query aewh01000006.orf -outfmt 6 -evalue 0.001 > blastp.out -task blastp 
Результаты поиска находятся в файле blastp.out.

5. Затем при помощи программы 
grep (скрипт script.spt) для каждой рамки получено число сходных последовательностей найденных BLAST.

Информация обо всех открытых рамках считывания в исследуемом фрагменте генома находится в файле Excel frames.xls
.

Ниже приведена таблица с данными о рамках считывания, для которых нашлась хотя бы одна сходная последовательность в геноме E.coli.

Название рамки

Начало

Конец

Направление

Число находок Blastp

Идентификатор лучшей находки

E-value лучшей находки

AEWH01000006_5

3923

3636

обратное

1

YXIO_BACSU

1e-19

AEWH01000006_6

2428

1025

обратное

3

PUR8_BACSU

3e-09







Таким образом, сходные последовательности найдены для 2-х открытых рамок считывания, причем все эти рамки лежат на комплементарной цепи (имеют обратное направление). Для прямых рамок, присутствующих во фрагменте, сходных последовательностей в протеоме Bacsu не нашлось. Перекрывания рамок нет.

Ниже представлено графическое описание взаимного расположения предполагаемых генов в исследуемом фрагменте:
3'----[<= PUR8, 1025-2428]----[<= YXIO, 3636-3923]----5'
5'-------------------------------------------------------------- 3'
Далее было определено расположение сходных аннотированных генов в геноме Bacsu, для этого воспользовались записью EMBL с этим геномом.
Координаты этих генов следующие:

Название белка Bacsu

Соответствующий ему ген

Координаты гена

YXIO_BACSU

yxiO

4014682..4015968

PUR8_BACSU

purB

700232..701527







Направление всех генов прямое, перекрываний нет.
Рассмотрим расположение этих генов в геноме Bacsu относительно друг друга. Для наглядности указаны не названия генов, а краткие названия белков:
3'----------------------------------------------------------------------------5'
5'----[=> PUR8, 700232-701527]----[=> YXIO, 4014682-4015968]----3' 
Оба соответствующих гена в геноме Bacsu расположены на огромном расcтоянии друг от друга (в разы больше, сравнивая с моим фрагментом).

Таким образом, данная пара генов не является консервативной.


Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2012