Главная страница третьего семестра

Предсказание генов во фрагменте генома бактерии Yersinia bercovieri

     В этом задании был произведен поиск генов в неанотированном участке генома бактерии Yersinia bercovieri. Исследовалась часть генома с идентификатором (ID) AALC01000099 начиная с первого и заканчивая 4000-м нуклеотидом.

Подготовка

     При помощи программы seqret из участка генома Yersinia bercovieri был вырезан необходимый фрагмент нужной длины.

seqret /home/export/samba/public/tmp/yb.fasta:AALC01000099 sequence.fasta -sask

     Извлечение из полученной последовательности открытых рамок считывания производилось программой getorf. Выбор пал именно на эту программу, потому что в выходном файле она указывает координаты рамок в исходной последовательности, а также указывает направление.

getorf piece_gene.fasta -minsize 240 -table bacterial -find 1

     Здесь были использованы следующие параметры:
  • -minsize-указывает минимальную длину рамки считывания
  • -table-указывет какой генетический код следует использовать (в нашем случае это стандартный бактериальный код)
  • -find-объясняет программе, что именно следует считать рамкой считывания (в нашем случае последовательность, начинающуюся со старт кодона и заканчивающуюся стоп-кодоном)

         В результате выполнения этой программы было найдено 13 рамок считывания. Эти рамки были импортированны в Exel командой grep

    grep AALC01000099 frames_get.fasta > grep2.xls

         Далее были созданы индексные файлы BLASTа для всех последовательностей таксона Enterobacteriales, содержащиеся в банке SwissProt. Было сделано это при помощи seqret и formatdb.

    seqret sw-org:Enterobacteriales
         Выходной фаил был назван seqvenses.fasta.

    formatdb -i seqvenses.fasta -p T -n seq
    Параметры:
  • -i-входная последовательность
  • -p-указывает тип последовательности, с которой будет работать программа (в нашем случае нуклеотидная последовательность)
  • -n-базовое имя индексных файлов


              На этом подготовка была закончена...

    Выполнение задания

    О том, как создавался скрипт

         Смысл всего задания заключался в том, чтобы прогнать полученные рамки считывания по всем последовательностям из SwissProt (т.е. по аннотированным последовательностям) таксона Enterobacteriales и посмотреть для каких из них найдутся гомологи, следовательно такие последовательности мы будем вправе считать генами. За критерий гомологичности был взят параметр выравнивания E-value<0,01.

         Предположим мы берем одну какую-то рамку считывания...

    seqret frames_get.fasta:AALC01000099_1

    ...и начинаем её BLASTить.

    blastall -p blastp -d seq -e 0.01

         Чтобы связать рамку считывания с BLASTом, используем стандартный поток stdout.

    seqret frames_get.fasta:AALC01000099_1 stdout | blastall -p blastp -d seq -e 0.01

         Полученные данные можно прямиком отправлять в фаил подсчёта результатов, при помощи всё той же программы grep. Итого, имеем:

    seqret frames_get.fasta:AALC01000099_1 stdout | blastall -p blastp -d seq -e 0.01 | grep '^>' -c >>count.txt

         Параметр '^>' приводится, чтобы программа читала все строки, начинающиеся с символа >, значек >> используется, чтобы результат дописывался в конец уже существующего файла. Такие строчки, при помощи Exel, были созданы для всех рамок считывания. Потом содержимое документа Exel было скопировано в FAR, отредактировано в нем и озаглавлено как script.txt.

    Вид готового скрипта.


    О том, как скрипт работал

         При помощи пары несложных команд, скрипт был запущен:
    chmod +x script.txt
    ./script.txt

         В результате выполнения скрипта, был получен фаил, в котором указывалось сколько гомологов к каждой рамке считывания нашел BLAST. Данные этого файла были приплюсованы к раннее созданной таблице Exel.
         Таким образом, 1, 9, 12 и 13 рамки считывания можно считать генами. Их схематичное положение изображено ниже:

    3<-------410

    512------->1429

    1492<-------1989

    2711<-------3994

    © Низамутдинов Игорь, 2004