Главная 
Учебные материалы

Определение неаннотированного фрагмента генома бактерии Yersinia mollaretii

Для исследования был задан фрагмент генома бактерии Yersinia mollaretii длиной в 7000 нуклеотидов (с 98001 по 105000 нуклеотиды). Он был получен через Putty при помощи программы seqret с опцией -sask. Требовалось определить, есть ли в этом фрагменте гены, кодирующие белки, похожие на известные белки бактерии Escherichia coli K-12.
  1. Определение инструментов для решения поставленной задачи

    Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный протеом E.coli. Это было сделано при помощи команды seqret sw:*_Ecoli, которая записала в указанный в параметрах файл (ecoli.fasta) последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.
    Далее необходимо было создать индексные файлы для последующего поиска программами пакета BLAST: команда
    formatdb -i ecoli.fasta -n ecoli -p T
  2. Получение трансляций всех открытых рамок считывания

    При помощи программы getorf надо было получить файл, в котором содержатся все аминокислотные последовательности, полученные трансляцией всех открытых рамок считывания длиной не менее 240 нуклеотидов из интересующей нас нуклеотидной последовательности. При этом использование стандартного для бактерий (bacterial) генетического кода и определение открытой рамки как последовательности между старт- и стоп-кодонами обусловило параметры, подаваемые программе getorf:
    getorf -table 11 -minsize 240 -find 1 -sequence seq.fasta.
    Выходной файл программы содержит 11 аминокислотных последовательностей - ровно столько открытых рамок считывания нашлось getorf'ом.
  3. Поиск сходных последовательностей у E.coli

    Для выполнения поставленной задачи была использована программа blastp пакета BLAST, т.к. она позволяет искать гомологов белковой последовательности по банку белковых последовательностей. Нас интересовали находки с E-value<0,001, что определило значение входного параметра e программы blastp.
    В итоге командой
    blastall -p blastp -d ecoli -i getout.orf -o out.txt -e 0.001 -m 9
    был получен файл с определением сходных последовательностей. Из этого файла хотелось разумным образом получить информацию о числе сходных последовательностей. Для чего и был написан соответствующий скрипт, считающий количество строк с некой последовательностью символов. Результатом его работы является файл.
    Ниже приведена таблица, содержащая данные только по тем открытым рамкам, для которых нашлась хотя бы одна сходная последовательность:

    Рамка	Начало 	Конец 	Направление	Число сходных	ID Ecoli	E-value
    4	4435	4710	прямое  	   5       	YKGN_ECOLI	5e-17
    6	6993    6214	обратное  	   7       	YHCD_ECOLI	7e-24
    8       5591    4911    обратное           2            YHCF_ECOLI      8e-07
    10	3940	3317	обратное	   36       	FIMZ_ECOLI	7e-37
    11	3308	3	обратное	   41       	EVGS_ECOLI	4e-115
    
  4. Схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

    Для четырех открытых рамок считывания нашлись сходные последовательности в E.coli. 1 рамка располагаются в прямом направлении и 3 в обратном. Рамок имеющих общие нуклеотиды не обнаружено. Схематически положение открытых рамок на данном фрагменте из 7000 нуклеотидов можно изобразить следующим образом:

    Гипотетические гены во фрагменте 1-7000 записи AALD01000002

    
    5'---------------------------------------------------------------------[__=>ykgN,4435-4710__]------------------------3'
    
    3'-[__________<=evgS,3-3308_______________]-[__<=fimZ,3317-3940__]--------[__<=yhcF,4911-5591_]-[_<=yhcD,6214-6993_]-5'
    
    
  5. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

    Посмотрим, как расположены гены E.coli, гомологичные нашим, на геноме E.coli:
    Ген	Начало 5' 	Конец 3'
    ykgN	279.586         279.248
    yhcD	3.362.662 	3.365.043  
    yhcF	3.366.781	3.367.497
    fimZ	563.703	        563.071
    evgS	2.489.820       2.493.413
    

    Консервативность расположения сохраняется только для группы yhcD-yhcF, с поправкой на масштабы геномов, для остальных же генов закономерности расположения не наблюдаются.
©Залевский Артур, 2007