Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Зная аминокислотную последовательность своего белка из Escherichia coli K-12, определили, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома. Для этого:

    Создали в своей рабочей директории индексные файлы пакета BLAST для поиска по заданному геному.

    Выбрали подходящую для решения данной задачи программу из пакета BLAST (ТBLASTN) и провели с ее помощью поиск с порогом на E-value 0,001.

    По результатам поиска заполнили таблицу.

    Поиск гомологов белка GLYA_ECOLI в геноме бактерии Xanthomonas campestris

    Число находок с Е-value<0,001  1 
    Характеристика лучшей находки:  
       E-value находки   e-165
    AC соответствующей записи EMBL  AE012167
    Координаты выравнивания в записи EMBL  9246..10493
    Координаты CDS в записи EMBL (если есть)  9246..10499
    AC UniProt для этого CDS  Q8PCN4

  3. Аналогичный поиск сразу в нескольких геномах
  4. Создали в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью выбранной ранее программы провели поиск по трем геномам. Общее число находок с E-value < 0,001 составляет 3. E-value той находки, которая была лучшей по результатам предыдущего упражнения не изменился, однако на этот раз эта находка худшая.

  5. Поиск гомологов с помощью программы BLASTN
  6. Создали в своей рабочей директории fasta-файл с последовательностью из генома E.coli, кодирующей наш белок.

    Искали гомологов этого гена в трёх геномах программой BLASTN. Результаты данного упражнения и упражнения предыдущего совпали (т.е.все 3 находки из прошлого упражнения оказались лучшими находками и в данном случае). E-value лучшей находки равен 0.0. Сответствующее выравнивание здесь . Если сравнить данную находку с лучшей находкой из прошлого упраждения, то можно заметить, что они совпадают. Это вытекает из свойства однозначности генетичекого кода (т.к. один триплет нуклеотидов может кодировать только одну аминокислоту). Таким образом обе программы выдали одинаковый результат.

    Что же касается находки, то это участок генома Salmonella typhimurium LT2 с 9660 по 8407 нуклеотид (участок лежит на комплиментарной цепи). Если поискать в банке EMBL данный геном, то можно увидеть, что на всём участке выравнивания (8407..9660) находится CDS, кодирующий ген серингидроксиметилтрансферазы (GLYA_SALTY). Ген этого же белка, но только принадлежащий E.coli подавался на вход при поиске.

    <Третий семестр

    <<Главная страница


    ©ХАЧАТРЯН ЛУСИНЕ, 2008