Занятие 7. Программы пакета BLAST для работы с нуклеотидными последовательностями

Создайте директорию \Term3\Block2\Practice7\ для работы на этом занятии. Отчёт должен содержаться в файле \Term3\Block2\Practice7\XXXXXXX_pr7.doc, где XXXXXXX - ваша фамилия латинскими буквами. Он должен быть готов к утру дня следующего занятия.

На компьютере kodomo в директории /home/export/samba/public/y09/Term_3/Block_2/Pr_7 лежат 3 файла:

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Вы знаете аминокислотную последовательность Вашего белка из Bacillus Subtilis. Ваша задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Создайте в своей рабочей директории индексные файлы пакета BLAST для поиска по геному вашего организма.

    Выберите подходящую для решения данной задачи программу из пакета BLAST (cм. материалы) и проведите с ее помощью поиск с порогом на E-value 0,001.

    По результатам поиска заполните таблицу.

    Поиск гомологов белка <...> в геноме <такого-то организма>

    (От ... до ... ориентация) (От ... до ... )
    Число находок с Е-value<0,001         
    Характеристика лучшей находки:  
       E-value находки  
    Нормализованный вес (Bit score)  
    Идентификатор записи, содержащей фрагмент генома.
    (В файле геном не склеен в одну последовательность a представлен набором фрагментов)
     
    Координаты выравнивания в найденной нуклеотидной последовательности  
    Координаты выравнивания в последовательности белка, поданной на вход  
    Процент совпадающих букв в выравнивании  
    Число гэпов (gap opening)  

  3. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  4. Определите AC записи нынешнего (до этого вы работали с позапрошлогодним) релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL.

    Для этого создайте в своей директории файл с последовательностью того участка генома, который был найден в предыдущем упражнении как лучший. На сайте EBI (http://www.ebi.ac.uk/Tools/) запустите поиск этой последовательности в банке "EMBL standard prokaryote". Укажите в отчёте, какая информация имеется о соответствующем участке в поле FT. Если участок является частью аннотированной кодирующей последовательности (CDS), укажите координаты CDS и какой записи банка UniProt она соответствует.

  5. Поиск гомологов с помощью программы BLASTN
  6. Создайте в своей рабочей директории fasta-файл с последовательностью из генома B.Subtilis, кодирующей ваш белок (для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл).

    Поищите гомологов этого гена в том же геноме, что в упражнении 1, но программой BLASTN. Опишите результаты в отчёте: укажите E-value лучшей находки, приведите название геномной последовательности в файле и координаты находки в этой последовательности. Сравните результаты (количество находок, E-value и длины соответствующих друг другу находок и т.п.) с результатами поиска по последовательноси белка.

  7. Ваши наблюдения изложите в отчёте
  8. Включите ответы на вопросы: Приведите обоснования ответов.

  9. Добавьте информацию о новых программах (seqret из пакета EMBOSS, blastall, ...) в файл с инструкциями
См. подсказки.