Зачетная работа

Выполнение заданий

Получили заданный фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов из 
записи EMBL AALD01000001 с помощью команды: 

seqret embl:AALD01000001 -sask. Указали начало фрагмента - 147001, а конец - 154000. 

Полный протеом E. coli получили командой: 

seqret sw:*_Ecoli.

Сохранили в файле.

Создали индексные файлы для поиска программами пакета BLAST, используя команду: 

formatdb -i 3mg1.fasta -p T -n 123. 

Извлекили из полученного файла aa.fasta трансляции всех открытых рамок считывания длиной 
не менее 240 нуклеотидов. Использовали стандартный для бактерий (bacterial) генетический код, открытой 
рамкой считали последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. 

getorf -sequence aa.fasta -table 11 -minsize 240 -find 1 -o aa1.orf.

Итого получили всего 14 открытых рамок. 

В полученом документе находится информация об открытых рамках считываения.
 

Для поиска сходных последовательностей у E. coli использовали программу blastp, так как нужно было найти гомологов 
белковой последвательности по банку белковых последовательностей у E.Coli. Использовали команду: 

blastall -p blastp -d 123 -i aa1.orf -e 0.001 -m 9 -o aa1.out.
 

Чтобы извлечь данные о числе сходных последовательностей для каждой открытой рамки считывания , 
создали скрипт a.scr.

Резульат работы скрипта представлен в файле a2.txt.

В таблице приведена информация для тех рамок считывания, для которых нашлась хотя бы одна сходная последовательность: 
 Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli. 
Name Start End Direction Number of founds ID Ecoli E-value
AALD01000001_5 5764 6885 прямая 2 YCJY_ECOLI 1,00E-42
AALD01000001_6 5503 4814 обратнная 26 CUSR_ECOLI 2,00E-59
AALD01000001_7 4814 4074 обратнная 3 BAES_ECOLI 4,00E-07
AALD01000001_8 4234 3401 обратнная 19 CUSS_ECOLI 2,00E-34
AALD01000001_14 1027 161 обратнная 8 DKGA_ECOLI 4,00E-54
Гипотетические гены во фрагменте 147001-154000 записи AALD01000001

5'----------------------------------------------------------------------------------[5764-6885,ycjY,=>]----3'
3'-[161-1027,dkgA,<=]---[3401-4234,cusS,<=[4074-4814,baeS,<=]][4814-5503,cusR,<=]--------------------------5'
Гены, гомологичные им в геноме кишечной палочки (фрагмент 500000-3200000):

5'---------------------------------------------------------------------------------------[2160900-2162303,baeS,=>]------[3154645-3155472,dkgA,=>]--3'
3'---[592551-593993,cusS,<=[593983-594666,cusR,<=]]--------[1388957-1389877,ycjY,<=]---------------------------------------------------------------5'

Порядок следования генов и расстояние между ними сохраняются только между генами baeS и dkgA и их предсказанными гомологами. 
И хотя между продуктами этих генов BAES_ECOLI (Signal transduction histidine-protein kinase baeS) и DKGA_ECOLI (2,5-diketo-D-gluconic acid reductase A)
 нет очевидной связи, можно предположить что гены этих белков экспрессируются совместно, или же их экспрессия как-то совместно регулируется 
(например продукт одного гена подавляет экспрессию другого). Влюбом случае, наверняка можно только сказать, что близкое расположение 
этих генов -  консервативный признак (по крайней мере для E.coli и Y.mollaretii)