Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Задания практикума 9

Проверять буду только файлы на kodomo, страницу с отчетом делать не надо. Мягкий дедлайн – 23:59 8 ноября, жесткий дедлайн – 01:00 15 ноября. После мягкого дедлайна штраф 0.5 балла, после жесткого – 2 балла.

1. Упражнения по EMBOSS

Команды для освоения:

  • справка и мануалы: wossname, tfm, опции -help -verbose, http://emboss.sourceforge.net/

  • работа с последовательностями: entret, seqret, seqretsplit, infoseq, descseq, wordcount, compseq, fuzznuc.
  • работа с выравниваниями: infoalign, tranalign, consambig.
  • работа с аннотациями записей: featcopy, extractfeat.
  • работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign.
  • работа со случайными последовательностями: shuffleseq, makenucseq.
  • вспомогательные: noreturn, degapseq.

Кроме того, нужно знать формат USA (адрес последовательности).

Нужно выбрать 5 упражнений из списка, выполнить их и записать правильные команды в текстовый файл ~/term3/pr9/emboss.txt. Файл должен быть в следующем формате:

#number
command
#number
command
...

где number – номер упражнения, command – команда, которая это упражнение выполняет. Файл должен быть с переносами строк в формате Unix, и лишних пустых строк быть не должно. Наличие входных и результирующих файлов проверять не буду, только сами команды.

Упражнения:

  1. Несколько файлов в формате fasta собрать в единый файл.
  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы (в презентации есть слайд про это).
  3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

  4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
  5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности, используя указанную таблицу генетического кода.
  6. Перевести выравнивание из формата fasta в формат msf.
  7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
  8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
  9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
  10. Перемешать буквы в данной нуклеотидной последовательности.
  11. Создать три случайных нуклеотидных последовательностей длины 100.
  12. Найти частоты кодонов в данных кодирующих последовательностях.
  13. (tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков – их продуктов.

  14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
  15. Перевести символы конца строки из формата Windows в формат Unix (с помощью программы из пакета EMBOSS).

Использовать можно любые входные последовательности. Для многих заданий данные можно найти в папке /P/y21/term3/pr9 на kodomo. Везде, где написано, что надо использовать что-то "указанное" или "заданное", выбор на ваше усмотрение, но нельзя оставлять значение по-умолчанию.

2. Работа с Entrez Direct

Проверять буду наличие сценария bash с именем ~/term3/pr9/edirect.sh и файлов с выдачей, полученных после его тестового запуска. Должна быть возможность запуска сценария без указания интерпретатора, т.е. в файле должен быть shebang, и у владельца файла должно быть право на исполнение.

Сценарий должен содержать три описанных ниже конвейера в указанном порядке.

Конвейер 1: получает AC записи в базе Nucleotide (из первого аргумента сценария edirect.sh) и скачивает эту запись в формате (-format) docsum в виде (-mode) json. Сохраняет выдачу в файл {AC}.json, {AC} – это полученный АС нуклеотидной записи.

Конвейер 2: получает АС записи в базе Nucleotide (из первого аргумента сценария edirect.sh), переходит по ссылкам на записи в базе дынных Protein и загружает их в формате fasta в файл {AC}_proteins.fasta, {AC} – это полученный АС нуклеотидной записи.

Конвейер 3: получает AC записи в базе Assembly (из второго аргумента сценария edirect.sh), и печатает в STDOUT ID записи (не AC) и N50 для контигов этой сборки в виде строки {ID} <tab> {N50} (два значения, разделенные символом табуляции). Последовательность шагов придумайте сами. Последний этап (получение нужных полей в нужном формате из XML) нужно реализовать с помощью вызова xtract с нужными аргументами.

Работу сценария обязательно нужно проверить! Посмотрите на созданные файлы после запуска, проверьте их формат и содержимое. Где найти коды доступа какой-нибудь нуклеотидной записи или геномной сборки для тестового запуска, вы должны уже знать. Но не используйте нуклеотидную запись большого размера! Хромосома человека, например, точно не подойдет. Можно выбрать хромосому бактерии или вируса, плазмиду, небольшой контиг из какой-нибудь эукариотической сборки, и т.д. Важно, чтобы в нуклеотидной записи были аннотированы гены белков, иначе второй пайплайн ничего не выдаст. Если генов в записи нет, используйте другую запись. А геномную сборку можно использовать любую, сильно объемных записей в этой базе не бывает.

Пример запуска сценария:

$ ./edirect.sh "NC_022094.1" "GCA_003604245.1"
2022931 46102
$ ls
...
edirect.sh
NC_022094.1.json
NC_022094.1_proteins.fasta
...

2021/3/pr9 (последним исправлял пользователь is_rusinov 2022-11-08 15:33:32)