|
Определение неаннотированного фрагмента генома бактерии Yersinia mollaretii
Для исследования был задан фрагмент генома
бактерии Yersinia mollaretii
длиной в 7000 нуклеотидов (с 98001 по 105000 нуклеотиды).
Он был получен через Putty при помощи программы seqret с опцией
-sask. Требовалось определить, есть ли в этом фрагменте гены, кодирующие белки,
похожие на известные белки бактерии Escherichia coli K-12.
Определение инструментов для решения поставленной задачи
Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный
протеом E.coli. Это было сделано при помощи команды seqret sw:*_Ecoli,
которая записала в указанный в параметрах файл (ecoli.fasta)
последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.
Далее необходимо было создать индексные файлы для последующего поиска
программами пакета BLAST: команда
formatdb -i ecoli.fasta -n ecoli -p T
Получение трансляций всех открытых рамок считывания
При помощи программы getorf надо было получить
файл, в котором
содержатся все аминокислотные последовательности, полученные трансляцией
всех открытых рамок считывания длиной не менее 240 нуклеотидов из
интересующей нас
нуклеотидной последовательности.
При этом использование стандартного для бактерий (bacterial)
генетического кода и определение
открытой рамки как последовательности между старт-
и стоп-кодонами обусловило параметры, подаваемые программе getorf:
getorf -table 11 -minsize 240 -find 1 -sequence seq.fasta.
Выходной файл программы содержит 11
аминокислотных последовательностей - ровно столько открытых рамок считывания
нашлось getorf'ом.
Поиск сходных последовательностей у E.coli
Для выполнения поставленной задачи была использована программа blastp
пакета BLAST, т.к. она позволяет искать гомологов белковой
последовательности по банку белковых последовательностей.
Нас интересовали находки с E-value<0,001, что определило значение
входного параметра e программы blastp.
В итоге командой
blastall -p blastp -d ecoli -i getout.orf -o out.txt -e 0.001 -m 9
был получен файл с определением сходных
последовательностей.
Из этого файла хотелось разумным образом получить информацию о числе
сходных последовательностей. Для чего и был написан соответствующий
скрипт, считающий количество строк с некой
последовательностью символов.
Результатом его работы является файл.
Ниже приведена таблица, содержащая данные только по тем открытым рамкам,
для которых нашлась хотя бы одна сходная последовательность:
Рамка Начало Конец Направление Число сходных ID Ecoli E-value
4 4435 4710 прямое 5 YKGN_ECOLI 5e-17
6 6993 6214 обратное 7 YHCD_ECOLI 7e-24
8 5591 4911 обратное 2 YHCF_ECOLI 8e-07
10 3940 3317 обратное 36 FIMZ_ECOLI 7e-37
11 3308 3 обратное 41 EVGS_ECOLI 4e-115
Схематическое положение на фрагменте тех открытых рамок,
для которых нашлись сходные последовательности в E. coli.
Для четырех открытых рамок считывания нашлись сходные последовательности
в E.coli.
1 рамка располагаются в прямом направлении и 3 в обратном.
Рамок имеющих общие нуклеотиды не обнаружено.
Схематически положение открытых рамок на данном фрагменте из 7000 нуклеотидов можно
изобразить следующим образом:
Гипотетические гены во фрагменте 1-7000 записи AALD01000002
5'---------------------------------------------------------------------[__=>ykgN,4435-4710__]------------------------3'
3'-[__________<=evgS,3-3308_______________]-[__<=fimZ,3317-3940__]--------[__<=yhcF,4911-5591_]-[_<=yhcD,6214-6993_]-5'
Сравнение взаимного расположения предполагаемых генов
данного фрагмента и гомологичных им генов в геноме кишечной палочки.
Посмотрим, как расположены гены E.coli, гомологичные нашим, на геноме E.coli:
Ген Начало 5' Конец 3'
ykgN 279.586 279.248
yhcD 3.362.662 3.365.043
yhcF 3.366.781 3.367.497
fimZ 563.703 563.071
evgS 2.489.820 2.493.413
Консервативность расположения сохраняется только для группы yhcD-yhcF, с поправкой на масштабы геномов, для остальных же генов закономерности расположения не наблюдаются.
|
|