EMBOSS

Задание 1. Упражнения в EMBOSS

1) Несколько файлов в формате fasta собрать в единый файл

Ссылка на исходные данные

Команда:

seqret *.fasta -outseq all.fasta

Ссылка на результат

2) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Ссылка на исходные данные

Команда:

seqretsplit all.fasta -auto

Ссылка на результат

3) Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq)
или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам
"от", "до", "ориентация" и сохранить в одном fasta файле

Ссылка на исходные данные

Команда:

seqret @t3.txt -outseq kek.fasta

Ссылка на результат

4) Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие
в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода,
и положить результат в один fasta файл

Ссылка на исходные данные

Команда:

transeq -table 0 -sequence coding.fasta -outseq task4.fasta

Ссылка на результат

5) Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности

Ссылка на исходные данные

Команда:

transeq sequence.fasta -frame=6 task5.fasta

Ссылка на результат

6) Перевести выравнивание из формата fasta в формат msf

Ссылка на исходные данные

Команда:

seqret alignment.fasta msf::task6.msf

Ссылка на результат

7) Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными
(на выходе только имена последовательностей и числа)

Ссылка на исходные данные

Команда:

infoalign alignment.fasta refseq=2 -only -name -idcount task7.txt

Ссылка на результат

8) (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff

Ссылка на исходные данные

Команда:

featcopy sequence.gb gff::sequence.gff

Ссылка на результат

9) (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями

Ссылка на исходные данные

Команда:

extractfeat sequence.gb -type CDS task9.fasta

Ссылка на результат

10) Перемешать буквы в данной нуклеотидной последовательности

Ссылка на исходные данные

Команда:

shuffleseq sequence.fasta task10.fasta

Ссылка на результат

11) Создать три случайных нуклеотидных последовательностей длины 100

Команда:

makenucseq -amount=3 -length=100 sequences.fasta

Ссылка на результат

Задание 2. Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для
случайной последовательности длины 100 в геноме бактерии Escherichia coli strain K12

Скрипт на Python

Ссылка на папку со всеми файлами

Скрипт выглядит достаточно громоздко, так как использовались Popen и PIPE, наряду со стандартными параметрами
(то, что можно было бы одной строкой написать в command line "растягивается" на несколько при работе в python;
тем не менее, это позволяет использовать инструменты Python

В среднем получилось 0.13 находок с E-value < 0.1 для 100 последовательностей
У 13 последовательностей из 100 были обнаружены хиты с интересующим нас значением E-value
в количестве 1 или 2; тем не менее, при подсчете скрипт учитывает и другое количество находок
В процессе работы скрипта создается 100 файлов, которые удаляются после выдачи результата о среднем
количестве находок
В папке с файлами, ссылка на которую приведена выше, находятся файлы формата *.py - это "кусочки" общего
скрипта, которые в итоге были перенесены в файл script.py


© Беляева Юлия, 2018