Отчётное задание

Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii
Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Алгоритм выполнения работы

  1. Получение фрагмента генома бактерии Yersinia mollaretii : Программе seqret embl:AALD01000003 -sask задаются параметры:
    Begin at position [start]: 21001
    End at position [end]: 28000
    Reverse strand [N]: n
    output sequence(s) [aald01000003.fasta]: aald01000003.fasta

    Программа вырезает фрагмент генома Yersinia mollaretii с 21001 по 28000 нуклеотид в 5'-3'-направлении.

  2. Полный геном бактерии Escherichia coli получается запуском программы: sw:*_ecoli >all_ecoli.fasta

  3. Индексные файлы для последующего поиска программами создаёт программа formatdb -i all_ecoli.fasta -p T -n ec

  4. Извлчение из вырезанного фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов:

    getorf -table 11 -minsize 240 -find 1 -sequence aald01000003.fasta
    Выходной файл программы aald01000003.orf содержит 17 аминокислотных последовательностей, закодированных найденными рамками.

  5. Поиск сходных последовательностей у E.coli
    Программа blastall -p blastp -d ec -i aald01000003.orf -o out_ecoli.txt -m 8 -e 0.001 находит последовательности из генома E.coli, при условии E-value<0,001
    Теперь с помощью скрипта нетрудно построить таблицу, включающую информацию обо всех открытых рамках считывания в вашем фрагменте генома:
    Номер	Начало	Конец  Направление  Число гомологов      ID	     E-value
    1	46	939	 прямое	   	 1	      LEP_ECOLI	   1,00E-127
    2	1244	1921	 прямое	   	 1	      RNC_ECOLI	   1,00E-108
    3	1921	2829	 прямое	   	 5	      ERA_ECOLI	   4,00E-148
    4	2796	3563	 прямое	   	 1	      RECO_ECOLI   8,00E-107
    5	3700	4449	 прямое	   	 1	      PDXJ_ECOLI   8,00E-107
    6	4452	4829	 прямое	   	 1	      ACPS_ECOLI   3,00E-51
    7	5290	6630	 прямое	   	 7	      GNTP_ECOLI   0.0
    9	6973	6713	обратное   	 1	      YFHL_ECOLI   5,00E-39
    
    В таблице приведены начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, идентификатор самого близкого из найденных белков E. coli и E-value находки.

  6. Схематическое изображение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E.coli:
    Гипотетические гены во фрагменте 21001-28000 записи AALD01000003:
    3'------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------[<=ген yfhl, 27714-27974]------5'
    5'-[=>ген lep, 21050-21940]------[=>ген rnc, 22245-22922][=>ген era, 22922-23830]-------------[=>ген pdxj, 24701-25450]-[=>ген acps, 25453-25830]--------[=>ген gntp, 26291-27631]-----------------------------------3'
    5'---------------------------------------------------------------[=>ген reco, 23797-24564]----------------------------------------------------------------------------------------------------------------------------3'
    

  7. Расположение гомологичных генов в геноме E.coli:
    5'-[=>ген yfhl, 2697685-2697945]------[=>ген acps, 2698640-2699020][=>ген pdxj, 2699020-2699751]-[=>ген reco, 2699763-2700491]--[=>ген era, 2700503-2701408]----[=>ген lep, 2702357-2703331]-----------------------------------[=>ген gntp, 4547976-4549319]-------3' 
    5'-------------------------------------------------------------------------------------------------------------------------------------------------------[=>ген rnc, 2701405-2702085]------------------------------------------------------------------------------3'
    
    Таким образом, видно, что у E.coli все гены имеют прямое направление и абсолютно другую последовательность, чем у Yersinia mollaretii. При этом у в геноме кишечной палочки все исследуемые гены, кроме gntp находятся в промежутке от 2697685 до 2703331 нуклеотида (длина 5647н.), а gntp находится в отдалении на более чем 2 000 000 нуклеотидов. При этом перекрывание в геноме Y.mollaretii ген era перекрывается на 34 нуклеотида с геном reco, а в геноме E. coli ген era перекрывается на 4 нуклеотида с геном rnc. Интересно, что в геноме Yersinia mollaretii на один нуклеотид перекрываются гены rnc-era, а у E. coli такое перекрывание возникает у генов acps-pdxj.
    Возможными причинами перекрывания могут быть: маленький геном, недостаточный для кодировки всей информации, "перескок" рамки считывания: рибосома, пропуская стоп-кодоны, читает второй ген в паре перекрывания в правильной рамке считывания.
Назад

На главную


©Степанова Вита