Зачетное задание

Мне был дан неаннотированный фрагмент генома бактерии Regiella insecticola с 7001 по 14000 нуклеотид. Получен он был с помощью программы seqret. Теперь определим, где в данном фрагменте закодированы белки, похожие на известные белки E. coli.

  1. Инструменты для решения поставленной задачи

    Для выполнения задачи получим из Swiss-Prot полный протеом E. coli. Это можно сделать с помощью следующей команды:
    seqret sw:*_ECOLI
    Таким образом был получен файл с последовательностью всех описанных белков кишечной палочки. После этого были созданы индексные файлы для поиска программами пакета Blast с помощью следующей команды:
    formatdb -i 3mg1_ecoli.fasta -p T -n ec

  2. Получение трансляций всех открытых рамок считывания длиной не менее 240 нуклеотидов

    Перед проведением поиска гомологов с помощью пакета Blast нужно получить трансляции открытых рамок считывания изучаемого фрагмента генома Regiella insecticola. Для этого воспользуемся программой getorf. Используя стандартный для бактерий генетический код и считая открытой рамкой последовательность, начинаяющуюся со старт-кодона и заканичвающуюся стоп-кодоном длиной не менее 240 нуклеотидов, вводим следующую команду:
    getorf -table 11 -minsize 240 -find 1 -sequence AC200764.fasta
    Получаем файл с 6 открытыми рамками, из которых только одна (шестая) соответствует обратному направлению фрагмента.

  3. Поиск сходных последовательностей и оформление результатов в таблице

    Теперь можно проводить, собственно, поиск сходных последовательностей в протеоме кишечной палочки. Для этого воспользуемся пакетом Blast, а именно программой BlastP (именно она ищет гомологов белковой последовательности в банке данных белков). Критерием находок будем считать E-value меньше 0.001. Введем следующую команду:
    blastall -p blastp -d ec -i ac200764.orf -m 8 -e 0.001 -o hom.txt
    На выходе получаем файл со списком находок, представленным в виде таблицы. Каждая строчка таблицы начинается названием рамки считывания, полученной в результате трансляции фрагмента генома (см. пункт 2). Далее каждая строчка содержит информацию о найденной сходной последовательности в протеоме E. coli, среди которой и E-value находки. Для подсчета числа находок для каждой рамки считывания был создан скрипт (впрочем, в моем случае посчитать это число можно легко в уме). В результате работы скрипта был получен файл со столбцом чисел (каждое число - количество находок для соответствующей рамки считывания).
    Результат всей работы представлен в таблице Excel. Первый столбец таблицы содержит названия рамок считывания (как и в файле, полученном с помощью blastp), далее идут столбцы с номерами нуклеотидов начала и конца рамок считывания, направление фрагмента, число сходных последовательностей, обнаруженных программой BlastP, соответствующая строка в скрипте, идентификатор самого близкого из найденных белков E. coli, а также E-value этой находки. Важно заметить, что сходные последовательности в E. coli были найдены для всех открытых рамок считывания, кроме последней (с обратным направлением). Ниже представлен электронный вариант такой таблицы:
    Рамка считывания № начала во фрагменте № конца во фрагменте Направление Число сходных последовательностей в протеоме E. coli с E-value < 0.001 Идентификатор самого близкого из найденных белков E. coli E-value находки
    AC200764_1 26 280 прямое 1 ZITB_ECOLI 1.10-17
    AC200764_2 259 720 прямое 1 ZITB_ECOLI 4.10-42
    AC200764_3 1078 3978 прямое 1 RAPA_ECOLI 0
    AC200764_4 3994 4629 прямое 4 RLUA_ECOLI 4.10-86
    AC200764_5 6527 7000 прямое 4 DAPA_ECOLI 1.10-49
    AC200764_6 5980 4658 обратное 0    

  4. Гипотетические гены во фрагменте 7001-14000 записи AC200764

    Изобразим схематически положение открытых рамок, для которых нашлись сходные последовательности в E. coli, на фрагменте. На представленной ниже схеме в квадратные скобки заключено направление цепи ДНК (=> значит прямое направление), краткое название самого сходного белка E. coli и координаты границ открытой рамки в изучаемом фрагменте:
        3'--------------------------------------------------------------------------------------------------------------5'
    
        5'----[=> zitb, 26-280]--
                   5'----[=> zitb, 259-720]-----[=> rapa, 1078-2978]-----[=> rlua, 3994-4629]----[=> dapa, 6527-7000]---3'
        
    Как видно из рисунка, в одном участке нуклеотидной последовательности наблюдается перекрывание генов (с координатами 26-280 и 259-720). Гены эти соответствуют первой и второй открытым рамкам считывания. Причем, обе рамки схожи с одним и тем же белком в E. coli - ZITB_ECOLI. Скорее всего, это связано с тем, что в процессе сиквенирования произошла ошибка - встраивание или делеция нуклеотида, что сдвинуло рамку считывания и привело к разделению двух рамок считывания. Тем более, в поддержку этой гипотезы говорит то, что конец первой открытой рамки и начало второй довольно близко расположены в последовательности. Тогда схема приобретет следующий вид:
                                                                                                                                                                                             
        3'---------------------------------------------------------------------------------------------------5'
    
        5'----[=> zitb, 26-720]-----[=> rapa, 1078-2978]-----[=> rlua, 3994-4629]----[=> dapa, 6527-7000]---3'
        
    Кроме того, видно, что последняя рамка считывания (пятая) заканчивается ровно 7000-м нуклеотидом (и соответствующая находка имеет достаточно низкий E-value), а значит, вполне вероятно, что в геноме бактерии Regiella insecticola вся открытая рамка считывания этого белка будет еще длиннее, еще более схожа с находкой в E. coli (DAPA_ECOLI) (и соответственно иметь еще меньший E-value).

  5. Взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки

    С помощью программы entret была получена запись EMBL AP009048 с полным геномом кишечной палочки. Изобразим схематически расположение генов четырех гомологичных белков в геноме E. coli (обозначения на схеме те же, что и в п. 4).
        3'----[<= rlua, 59687-60346]-[<= rapa, 60358-63264]----[<= zitb, 784304-785245]------[<= dapa, 2597538-2598416]--------5'
    
        5'---------------------------------------------------------------------------------------------------------------------3'
        
    Забавно, что в геноме E. coli все эти 4 белка закодированы в комплементарной цепи ДНК, в то время как в геноме Regiella insecticola эти белки закодированы в прямой цепи. Как видно из схемы, гены rluA и rapA расположены чрезвычайно близко. Но, как ни странно, траслируемые ферменты выполняют разные свойства в клетке. Белок RAPA_ECOLI является фактором транскрипции, связываясь с РНК-полимеразой, а RLUA_ECOLI - синтетазой большой субъединицы рибосомы. Остальные два белка расположены очень далеко в последовательности и консервативными явно не являются.

Назад