Занятие 8. Программы пакета BLAST для работы с нуклеотидными последовательностями

Создайте директорию BLAST для работы на этом и следующем занятиях. Выходные файлы программ пакета BLAST должны находиться в этой директории. Отчёт должен появиться на вашем веб-сайте к вечеру дня следующего занятия.

На компьютере kodomo (и kodomo-count) в директории /home/export/samba/public/y08/Term_3/Block_2 лежат 3 файла:

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Вы знаете аминокислотную последовательность Вашего белка из Escherichia coli K-12. Ваша задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Создайте в своей рабочей директории индексные файлы пакета BLAST для поиска по заданному геному.

    Выберите подходящую для решения данной задачи программу из пакета BLAST (cм. материалы) и проведите с ее помощью поиск с порогом на E-value 0,001.

    По результатам поиска заполните таблицу.

    Поиск гомологов белка <...> в геноме <такой-то бактерии>

    Число находок с Е-value<0,001         
    Характеристика лучшей находки:  
       E-value находки  
    Название геномной последовательности  
    Координаты выравнивания(-ий) в найденной последовательности  

  3. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  4. Определите AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL.

    Для этого создайте в своей директории файл с последовательностью того участка генома, который был найден в предыдущем упражнении как лучший. На сайте EBI (http://www.ebi.ac.uk/Tools/) запустите поиск этой последовательности в банке "EMBL standard prokaryote". Укажите в отчёте, какая информация имеется о соответствующем участке в поле FT. Если участок является частью аннотированной кодирующей последовательности (CDS), укажите координаты CDS и какой записи банка UniProt она соответствует.

  5. Поиск гомологов с помощью программы BLASTN
  6. Создайте в своей рабочей директории fasta-файл с последовательностью из генома E.coli, кодирующей ваш белок (для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл).

    Поищите гомологов этого гена в том же геноме, что в упражнении 1, но программой BLASTN. Опишите результаты в отчёте: укажите E-value лучшей находки, приведите название геномной последовательности в файле и координаты находки в этой последовательности. Сравните результаты (количество находок, E-value и длины соответствующих друг другу находок и т.п.) с результатами поиска по последовательноси белка. Ваши наблюдения изложите в отчёте.

См. подсказки.