Занятие 10

Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii

Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Выполнение заданий

Получили заданный фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов из записи EMBL AALD01000001 с помощью опции -sack программы seqret. При этом начало фрагмента - 42001, конец - 49000. Определяли, есть ли в этом фрагменте гены, похожие на гены бактерии Escherichia coli K-12 .

  1. Полный протеом E. coli получили из SwissProt, с помощью команды

    seqret sw:*_ECOLI.

    Создали индексные файлы для поиска программами пакета BLAST с помощью программы formatdb:

    formatdb -i 3mg1_ecoli.fasta -p T -n ecoli.

  2. C помощью программы getorf из пакета EMBOSS извлекили из полученного фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. При этом использовали стандартный для бактерий (bacterial) генетический код, открытой рамкой считали последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

    getorf -table 11 -minsize 240 -find 1 -sequence aald01000003.fasta -o aal.orf.

    Итого получили всего 18 открытых рамок.

  3. Создали документ Excel, включающую информацию обо всех открытых рамках считывания в полученном фрагменте генома. Для каждой рамки указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli, идентификатор самого близкого из найденных белков E. coli и E-value находки при условии E-value<0,001.

    Для поиска сходных последовательностей у E. coli использовали программу blastp, которая позволяет искать гомологов белковой последвательности по банку белковых последовательностей. Для получения файла, содержащего информацию о сходных последовательностях, найденных у E. coli при условии E-value<0,001, была выполнена команда:

    blastall -p blastp -d ecoli -i aal.orf -e 0.001 -m 9 -o ecoli.out.

    Далее необходимо было извлечь данные о числе сходных последовательностей для каждой открытой рамки. Это было сделано при помощи скрипта.

  4. Рассмотрим эту информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность:

     Рамка  Начало  Конец  Направление  Число находок  ID Ecoli  E-value
     AALD01000003_1  12  635  N  19  YFHK_ECOLI  4*10-78
     AALD01000003_2  639  1790  N  1  YFHG_ECOLI  2*10-45
     AALD01000003_4  1696  3090  N  39  YFHA_ECOLI  0
     AALD01000003_6  3133  4758  N  1  YBEM_ECOLI  2*10-6
     AALD01000003_7  4777  5112  N  2  GLNB_ECOLI  2*10-55
     AALD01000003_10  6895  6518  Y  1  YHFU_ECOLI  3*10-48
     AALD01000003_11  6505  5216  Y  1  YHFT_ECOLI  3*10-168

  5. Изобразите схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

    Гипотетические гены во фрагменте 42001-49000 записи AALD01000001

    
    3'------------------------------------------------------------------------------------------------------[<=yhfT, 5216-6505]--[<=yhfU,6518-6895]---5'
    
    5'--[=>yfhK, 12-635]-[=>yfhG, 639-1790]--------------[=>ybeM, 3133-4758]----[=>glnB, 4777-5112]---------------------------------------------------3'
    5'-------------------------------[=>yfhA, 1696-3090]----------------------------------------------------------------------------------------------3'
    
    

    Гены, гомологичные им в геноме кишечной палочки (фрагмент 2685000-3506000):

    
    3'-------------------------------------------------------------------------------------------------------------------------------------------[<=yhfT, 819054-820358]--[<=yhfU,820370-820723]---5'
    
    5'--[=>glnB, 92-430]------------------[=>yfhG, 1815-2528]-------[=>yfhK, 2693-4120]------------------------------------------------------------------------------------------------------------3'
    5'--------------------[=>yfhA, 491-1825]-------------------------------------------------------------------------------------------------------------------------------------------------------3'
    

    Ген ybeM не приведён на данной картинке, поскольку его границы (657254-658041) удалены от остальных генов на значительное растояние.

    Что же касается сравнения расположения остальных генов, то следует отметить, что гены, располагавшиеся на комплиментарной цепи отстоят достаточно далеко от остальных генов у Escherichia coli, но в то же времы их взаимное расположение не претерпевает каких-либо глобальных изменений, расстояние между ними изменяется только на 1 нуклеотид. Из этого можно сделать вывод, что гены yhfT и yhfU достаточно близки.

    Группа генов, находившаяся в последовательности Yersinia mollaretii на прямой цепи в геноме Escherichia coli выглядит немного иначе. Кожется, что гены yfhK и glnB поменялись местами, да и ген yfhA, перекрывается с yfhG в последовательности из Yersinia mollaretii на конце yfhG, а в геноме Escherichia coli в начале. Такое ощущение, что гены glnB, yfhG и yfhK просто "развернули" в последовательности Yersinia mollaretii. И всё таки, гены находятся достточно близко, что может говорить о некоторой их консервативности.

    <Третий семестр

    <<Главная страница


    ©ХАЧАТРЯН ЛУСИНЕ, 2008