Занятие 9.

Отчёт по первому упражнению должен появитья на вашем сайте накануне следующего занятия.

Результатом заданий 2,3,5 должен стать файл MS-Excel "trna.xls", который должен лежать к следующему занятию в директории H:\Term3\BLAST, краткие выводы по всем заданиям 2–5 — в отчёте в той же директории.

  1. Работа с программой getorf пакета EMBOSS
  2. Создайте в своей директории файл с записью D89965 банка EMBL.

    Выполните команду

     tfm getorf
    
    и разберитесь, как запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Командную строку приведите в отчёте.

    Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует приведённой в записи CDS. Определите также, какая из рамок соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL.

  3. Поиск некодирующих последовательностей программой BLASTN
  4. В файле P:\y08\Term_3\Block_2\trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Ваша задача — определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии (см. предыдущее занятие).

    Этапы работы.

    Повторите поиск, на этот раз указав порог на E-value, равный 0.001. Добавьте в отчётную таблицу соответствующий столбец.
     

  5. Поиск некодирующих последовательностей программой megablast
  6. Повторите предыдущее задание, используя вместо BLASTN сначала обычный megablast, а затем разрывный ("discontigous") megablast. Программа megablast запускается с опциями, большая часть которых аналогична опциям программы blastall; при этом можно использовать те же индексные файлы. Смысл некоторых опций, впрочем, отличается; разберитесь с ними, читая описание параметров. Чтобы запустить discontigous megablast, нужно явно указать правильные значения опций "-t", "-W" и "-N"; какие именно — смотрите в описании.

    Результатом этого задания должны стать два дополнительных столбца в отчётном Excel-файле и абзац в отчете, с обязательным указанием командных строк, использованных для запуска megablast.
     

  7. Анализ результатов
  8. В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST выберите какую-нибудь пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка. Желательно выбрать такую находку, которая, например, находится программой BLASTN и не находится программой megablast, и постараться объяснить причину этого.

    Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL — оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!). Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle, в протоколе приведите характеристики выравнивания. Желателен биологически осмысленный вывод.

    Как проаннотирован гомологичный участок в записи EMBL, описывающей геном бактерии?

  9. (*) Поиск некодирующих последовательностей программой Fasta
    (дополнительное задание для любопытных)
  10. Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35. Для этого придётся, во-первых, вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл; во-вторых, научиться запускать fasta35, и в третьих, придумать запуск grep на выходном файле программы fasta35, выдающий количество находок.

    Указания

    Все ли найденные программой BLASTN гомологи найдены также и программой FastA? Если нет, приведите пример и постарайтесь разобраться, почему так получилось.