Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

В процессе ...

EMBOSS: пакет программ для анализа последовательностей

Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose 
(2) работа с последовательностями и выравниваниями: seqret, infoseq - есть в задании, infoalign  
(3) работа с аннотациями записей: featcopy, extractfeat 
(4) работа с нуклеотидными последовательностями: cusp, compseq, transeq
(5) перемешивание: shuffleseq
(6) правильное выравнивание кодирующих последовательностей: tranalign
(7) getorf - есть в задание

1. Представить отчёт о выполнении пяти упражнений. Остальные могут быть спрошены на коллоквиуме

В отчёт включайте команду, ссылки на исходные данные и результат.

  1. (seqret) Несколько файлов в формате fasta собрать в единый файл
  2. (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
  3. (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
  4. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
  5. (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
  6. (seqret) Перевести выравнивание и из fasta формате в формат .msf
  7. (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
  8. (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
  9. (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
  10. (shuffle) Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)

  11. (cusp)Найдите частоты кодонов в данных кодирующих последовательностях
  12. (compseq) Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
  13. (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов

Сравнение геномов

2. Для полных геномов двух или нескольких бактерий или архей одного вида опишите глобальные эволюционные события и определите сходство гомологичных участков ДНК

Для зачета достаточно выполнить одно из двух заданий

2a. (из 5и баллов) Для двух геномов постройте карту локального сходства и опишите крупные эволюционные события на пути от общего предка

2a, ДОПОЛНИТЕЛЬНОЕ(*). Для одной крупной вставки найдите вероятный источник

Советы

2b.(из 10 баллов) Постройте нуклеотидный пангеном для 3-4 геномов близкородственных бактерий или архей

Варианты расхождений в аннотациях генов, аннотированных в одном и том же месте одного блока