Главная Семестры Проекты Обо мне

Самостоятельная работа по предсказанию генов


Дан: неаннотированный участок генома бактерии Ornithinibacillus scapharcae (штамм TW25).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).
Получила фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом 126001, длиной 7000 нуклеотидов с помощью команды: seqret AEWH01000006.embl -sask
Файл
Получила файл prot_1.fasta, содержащий полный протеом B. subtilis из Swiss-Prot: seqret sw:*_bacsu
Файл
Извлекла из моего фрагмента генома трансляции все открытые рамки считывания длиной не менее 240 нуклеотидов с помощью программы getorf. При этом использую стандартный для бактерий (bacterial) генетический код, открытой рамкой посчитала последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном: getorf aewh.fasta -minsize 240 -find 1 -table 11 aewh.orf
На выходе получила файл aewh.orf, в котором нашлось 8 открытых рамок считывания.
grep ">" aewh.orf > aewh.txt
Информацию из файла aewh.txt поместила в aewh.xls.
С помощью BLAST нашла сходные последовательности в протеоме B. subtilis при условии E-value<0,001:
makeblastdb -in prot_1.fasta -out bacsu -dbtype prot
blastp -db bacsu -query aewh.orf -outfmt 6 -evalue 0.001 > blastp.txt -task blastp

Получила файл blastp.txt.
Скрипт, которым из выдачи BLAST получено число гомологов для каждой рамки. Использовались: noreturn one.txt; one.sh chmod +x one.sh; ./one.sh
Ниже приведена таблица, содержащая информацию о тех открытых рамках, для которых с помощью BLAST нашлась хотя бы одна сходная последовательность.


Открытая рамка считывания

Начало фрагмента

Конец фрагмента

Направление

Число сходных посл-тей

Идентификатор самого близкого из найденных белков

E-value находки

>AEWH01000006_1

710

1945

прямое

1

YHAM_BACSU

1e-14

>AEWH01000006_5

6859

5642

обратное

2

YHAO_BACSU

9e-84

>AEWH01000006_6

5632

2657

обратное

1

YHAN_BACSU

1e-30

>AEWH01000006_7

2607

2044

обратное

3

YVBF_BACSU

4e-38



Гипотетические гены во фрагменте 126001–133001 записи AEWH01000006


3'-------------------------------------------[<= yvbf, 2044-2607]-----------5'
5'---------[710-1945 =>yham]-------------------------------------------------3'

3'-----------[<= yhan, 2657-5632]-------------[<= yhao, 5642-6859]-----------5'
5'---------------------------------------------------------------------------3'


Значки => и <= обозначают прямую и комплементарную цепь ДНК соответственно, а парами квадратных скобок обозначены открытые рамки, в которых приведено краткое название самого сходного белка B. subtilis. Сравниваю взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки. Для этого рассматриваю для каждого предсказанного гена наиболее сходный из белков Bacillus subtilis. Участки, кодирующие необходимые белки, нахожу в записи с последовательностью генома сенной палочки (AL009126). Перекрывания отсутствуют. Все соответствующие гены в геноме B. subtilis расположены на очень большом растоянии друг от друга (на несколько порядков больше, по сравнению с моим фрагментом). Плюс взаимное расположение генов B. subtilis не совпадает с предсказанным положеним гипотетических. Данную группу никак нельзя считать консервативной.
©Melnichuk Anastasia