Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

EMBOSS: пакет программ для анализа последовательностей

Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/ 
(2) работа с последовательностями: seqret,seqretsplit, infoseq, wordcount, compseq, fuzznuc 
(3) работа с выравниваниями: infoalign, edialign, emma,tranalign  
(4) работа с аннотациями записей: featcopy, extractfeat 
(5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign  
(6) работа со случайными последовательностями: shuffleseq, makenucseq 
(7)вспомагательные: noreturn, degapseq

1. Представить отчёт о выполнении десяти упражнений.

Отчёт - на сайте. В отчёте должно быть: (i) номер и название задания; (ii) ссылка (-и) на исходные данные;(iii) команд с параметрами (скриншот или копи-паст из командной строки), и (iv) ссылка (-и)на результат.

  1. Несколько файлов в формате fasta собрать в единый файл
  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
  3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
  4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
  5. Транслировать данную нуклеотидную последовательность в шести рамках.
  6. Перевести выравнивание из fasta формата в формат msf
  7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и )
  8. (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
  9. (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
  10. Перемешать буквы в данной нуклеотидной последовательности.
  11. (*) Для случайной последовательности проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите blastn с порогом E = 10 - по умолчанию и посчитайте сколько с E-value < 0.1)

  12. (*)Найдите все открытые рамки длиной более ... (сами придумайте) в бактериальной хромосоме и посчитайте статистику совпадений с аннотированными кодирующими последовательностями белков. Считать,что предсказание совпадает с аннотацией если совпадают координаты стоп-кодонов и CDS на одной и той же цепи ДНК, т.к. ошибки в определении инициаторного кодона часты даже в аннотациях (подсказка: ...).
  13. Найдите частоты кодонов в данных кодирующих последовательностях
  14. (*) Найдите частоты динуклеотидов в хромосоме человека, сравните их с ожидаемыми (подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y) )и определите динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
  15. (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
  16. Постройте локальное множественное выравнивание трех нуклеотидных последовательностей

  17. Удалите символы гэпов и другие посторонние символы из последовательности.
  18. Переведите символы конца строки в формат unix
  19. Создайте три случайных нуклеотидных последовательностей длины сто
  20. Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь

Пояснение Использовать можно любые входные последовательности. Для многих заданий данные лежат на диске P в директории pr9.