Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

EMBOSS: пакет программ для анализа последовательностей

Команды для освоения:

(1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/ 
(2) работа с последовательностями: seqret, seqretsplit, infoseq, descseq, wordcount, compseq, fuzznuc 
(3) работа с выравниваниями: infoalign, tranalign, consambig
(4) работа с аннотациями записей: featcopy, extractfeat 
(5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign  
(6) работа со случайными последовательностями: shuffleseq, makenucseq 
(7) вспомогательные: noreturn, degapseq

Кроме того, нужно знать формат USA (адрес последовательности).

1. Представить отчёт о выполнении десяти упражнений.

В отчёте должно быть: (i) номер и название задания; (ii) ссылка(-и) на исходные данные; (iii) команды с параметрами (копия из командной строки, как преформатированный текст), и (iv) ссылка(-и) на результат(-ы).

  1. Несколько файлов в формате fasta собрать в единый файл.
  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
  3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

  4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
  5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
  6. Перевести выравнивание из формата fasta в формат msf.
  7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
  8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
  9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
  10. Перемешать буквы в данной нуклеотидной последовательности.
  11. Создать три случайных нуклеотидных последовательностей длины 100.
  12. Найти частоты кодонов в данных кодирующих последовательностях.
  13. (tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.

  14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
  15. Перевести символы конца строки из формата Windows в формат Unix.
  16. Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь

Пояснение Использовать можно любые входные последовательности.

2. Написать на python и/или bash скрипт, решающий одну из следующих задач

  1. Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии (Подсказка: сгенерируйте 100 случайных последовательноcтей и задайте их как query, выдачу blastn задайте табличную).

  2. Найти все открытые рамки длиной более 60 аминокислотных остатков в бактериальной хромосоме и посчитать статистику совпадений с аннотированными кодирующими последовательностями белков. Считать, что предсказание совпадает с аннотацией, если совпадают координаты стоп-кодонов на одной и той же цепи ДНК (ошибки в определении инициаторного кодона часты даже в аннотациях).
  3. Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой. Подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y).
  4. По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).

В отчёте привести ссылку на скрипт (или набор скриптов) и подробное описание результата его применения.