Зачетное задание

Был получен геном E.coli

seqret sw:*_ecoli

В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному E.coli

formatdb -i 3mg.fasta -p T -n ecoli

Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок
длиной более 240 нуклеотидов,
считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
при использовании бактериального кода

ac200763.fasta

Для этого была выполнена следующая команда:

getorf -minsize 240 -find 1 -table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): ac200671.fasta
protein output sequence(s): ac200763.orf

На выходе получили файл ac200763.orf

Запустил программу blastp, указав в качестве последовательностей для поиска файл ac200763.orf, в качестве банка — отформатированный геном бактерии E.coli, указав порог на E-value, равный 0.001
Создал скрипт из команд, выдающих число находок для каждой последовательности(scr.scr(unix формат)).

Данные все записал в таблицу

table.xls

Имя

Начало во
фрагменте

Конец во
фрагменте

Направление

Число
находок
BLASTP

идентификатор самого
близкого из найденных
белков E. coli

E-value

AC200763_3

1901

2623

прямое

1

YHGF_ECOLI

1*10^-90

AC200763_4

2566

3498

прямое

1

YHGF_ECOLI

3*10^-126

AC200763_5

3458

4093

прямое

3

YHGF_ECOLI

5*10^-89

AC200763_10

6996

6664

обратное

1

RL13_ECOLI

4*10^-54

AC200763_11

6661

6254

обратное

1

RS9_ECOLI

3*10^-64

AC200763_13

5548

4874

обратное

1

SSPA_ECOLI

5*10^-74

AC200763_14

4865

4365

обратное

1

SSPA_ECOLI

2*10^-36

AC200763_18

3909

3643

обратное

25

OMPR_ECOLI

4*10^-113

AC200763_19

3089

2640

обратное

1

ENVZ_ECOLI

1*10^-90

AC200763_20

2572

2279

обратное

3

ENVZ_ECOLI

9*10^-25

fragments.txt

Гены YHGF_ECOLI на прямой, ENVZ_ECOLI на обратной цепи; и ENVZ_ECOLI на прямой и OMPR_ECOLI на обратной цепи перекрыватся.Гены SSPA располагаются на расстоянии 9 нуклеотидов, это 2 фрагмента одного гена

Гены RL13_ECOLI, RS9_ECOLI, SSPA_ECOLI располагаются очень близко, расстояние между RS9_ECOLI и RL13_ECOLI всего 16 нуклеотидов в гипотетических генах, и в геноме расстояние между ними меньше 1000 нуклеотидов, расстояние между SSPA_ECOLI и RS9_ECOLI в геноме менее 400 нуклеотидов, расположенение этих 3 генов в гипотетических генах и генах в геноме в одинаковом порядке, можно сказать что они консервативны, ENVZ_ECOLI и OMPR_ECOLI расположенение этих генов в гипотетических генах и генах в геноме в одинаковом порядке, расстояние в геноме между ними меньше 1000 нуклеотидов, рядом с ними на противоположенной цепи располагается ген YHGF_ECOLI, можно сказать , что они консервативны

 

 

© Замараев Алексей