Учебная страница курса биоинформатики,
год поступления 2015
В процессе ...
EMBOSS: пакет программ для анализа последовательностей
Команды для освоения: (1) help'ы: wossname, tfm, опции -help -verbose (2) работа с последовательностями и выравниваниями: seqret, infoseq - есть в задании, infoalign (3) работа с аннотациями записей: featcopy, extractfeat (4) работа с нуклеотидными последовательностями: cusp, compseq, transeq (5) перемешивание: shuffleseq (6) правильное выравнивание кодирующих последовательностей: tranalign (7) getorf - есть в задание
1. Представить отчёт о выполнении пяти упражнений. Остальные могут быть спрошены на коллоквиуме
В отчёт включайте команду, ссылки на исходные данные и результат.
- (seqret) Несколько файлов в формате fasta собрать в единый файл
- (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
- (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
- (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
- (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
- (seqret) Перевести выравнивание и из fasta формате в формат .msf
- (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
- (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
- (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
(shuffle) Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)
- (cusp)Найдите частоты кодонов в данных кодирующих последовательностях
- (compseq) Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
- (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
Сравнение геномов
2. Для полных геномов двух или нескольких бактерий или архей одного вида опишите глобальные эволюционные события и определите сходство гомологичных участков ДНК
Для зачета достаточно выполнить одно из двух заданий
2a. (из 5и баллов) Для двух геномов постройте карту локального сходства и опишите крупные эволюционные события на пути от общего предка
Выбор бактерий - за вами. Например, возьмите свою бактерию или архею из 1го семестра и другую того же вида с полностью секвенированым геномом.
В отчете приведите
- карту локального сходства
- сходство (Identity %) между гомологичными участками
- объяснение крупных эволюционных событий, согласно карте
2a, ДОПОЛНИТЕЛЬНОЕ(*). Для одной крупной вставки найдите вероятный источник
2b.(из 10 баллов) Постройте нуклеотидный пангеном для 3-4 геномов близкородственных бактерий или архей
Метод: построение нуклеотидного пангенома (NPG) с помощью пакета NPG-explorer
Материал: геномы 3-4х разных штаммов одного вида; выбор геномов - за вами.
- В отчёт включите:
- описание синтеничных участков (g-блоков), а именно:
- число g-блоков, (из pangenome/pangenome.info, в самом конце)
- фрагмент выравнивания g-блоков с объяснением (из визуализатора qnpge)
- описание ядра пангенома (объединения s-блоков):
- число s-блоков (из pangenome/pangenome.info, секция stable blocks)
- размер ядра - процент входных последовательностей, вошедших в s-блоки (там же, внизу секции)
- сходство геномов - процент консервативных позиций в объединенном выравнивании s-блоков (там же, Identity of joined blocks)
(*) филогенетическое дерево геномов, построенное по объединенному выравниванию s-блоков (trees/nj-global-tree.tre и визуализация любой программой, например, [[http://itol.embl.de/| ITOL )
- пример одного блока с повторами (r-блока) с объяснением
- один пример крупной делеций (делеция - в геномах, не вошедших в h-блок, используйте визуализатор qnpge или инфо из pangenome/pangenom.bi) и объяснение
- один пример последовательности, имеющейся только в одном геноме (используйте инфо из pangenome/pangenom.bi - можно открыть в Excel)
- описание синтеничных участков (g-блоков), а именно:
2b. ДОПОЛНИТЕЛЬНОЕ(*) Один пример расхождений между аннотациями генов с гомологичными последовательностями (найдите с помощью визуализатора qnpge)
Варианты расхождений в аннотациях генов, аннотированных в одном и том же месте одного блока
- в одном геноме ген аннотирован а в другом - не признается за ген
- стартовые кодоны очевидно ортологичных генов из одного блока в разных позициях выравнивания, хотя никаких оснований для их разнесения нет
- названия генов различаются по существу (а не потому, что используются разные синонимы)
- используйте визуализатор qnpge
- скриншоты визуализатора qnpge, иллюстрирующие результаты