EMBOSS

Вернуться на страницу семестра

Задания, выполненные с помощью Emboss


EMBOSS (The European Molecular Biology Open Software Suite) — пакет программ для биоинформатиков
Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/
(2) работа с последовательностями: seqret,seqretsplit, infoseq, wordcount, compseq, fuzznuc
(3) работа с выравниваниями: infoalign, edialign, emma,tranalign
(4) работа с аннотациями записей: featcopy, extractfeat
(5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign
(6) работа со случайными последовательностями: shuffleseq, makenucseq
(7)вспомагательные: noreturn, degapseq

1. Несколько файлов в формате fasta собрать в единый файл


Входные файлы: A1.fasta, A2.fasta, A3.fasta
Выходные файлы: Z1.fasta
Запрос
seqret 'A*.fasta' Z1.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы


Входные файлы: B1.fasta
Выходные файлы: u00096.3_cds_aac73118.1_7.fasta, u00096.3_cds_aac73119.1_8.fasta, u00096.3_cds_aac73120.1_9.fasta, u00096.3_cds_aac73121.1_10.fasta, u00096.3_cds_aac73122.1_11.fasta,
Запрос
seqretsplit B1.fasta -auto

3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле


Входные файлы: хромосома, названия трёх последовательностей
Выходные файлы: Z3.fasta
Запрос
seqret @C3.txt Z3.fasta

4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле


Входные файлы: Z3.fasta (выходной файл третьего задания)
Выходные файлы: Z4.fasta
Запрос
transeq Z3.fasta -frame 1 -table 0 Z4.fasta

5. Транслировать данную нуклеотидную последовательность в шести рамках.


Входные файлы: A1.fasta (входной файл первого задания)
Выходные файлы: Z5.fasta
Запрос
transeq A1.fasta -frame 6 -table 0 Z5.fasta

6. Перевести выравнивание и из fasta формата в формат .msf


Входные файлы: alignment.fasta
Выходные файлы: Z6.msf
Запрос
seqret alignment.fasta -outseq msf::Z6.msf

7. Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)


Входные файлы: alignment.fasta
Выходные файлы: Z7.txt
Запрос
infoalign alignment.fasta -refseq 2 -only -name -idcount Z7.txt

8. (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff


Входные файлы: хромосома из задания 3
Выходные файлы: Z8.gff
Запрос
featcopy chromosome.gb Z8.gff

9. (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)


Входные файлы: хромосома из задания 3. Тк программа почему-то выдавала ошибку при ссылке на сам файл, в запросе я написала ссылку на GeneBank
Выходные файлы: Z9.fasta
Запрос
extractfeat gb::genbank:U00096 -type CDS -describe product Z9.fasta

10. Перемешать буквы в данной нуклеотидной последовательности.


Входные файлы: A1.fasta из задания 1
Выходные файлы: Z10.fasta
Запрос
shuffleseq A1.fasta Z10.fasta

13. Найдите частоты кодонов в данных кодирующих последовательностях


Входные файлы: A1.fasta из задания 1
Выходные файлы: Z13.fasta
Запрос
cusp A1.fasta Z13.fasta

17. (desapseq) Удалите символы гэпов и другие посторонние символы из последовательности


Входные файлы: alignment.fasta
Выходные файлы: Z17.fasta
Запрос
degapseq alignment.fasta Z17.fasta

19.Создайте три случайных нуклеотидных последовательностей длины сто


Входные файлы: -
Выходные файлы: Z19.fasta
Запрос
makenucseq -amount 3 -length 100 Z19.fasta -auto

Задания на будущее:


11.(*) Для случайной последовательности проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите blastn с порогом E = 10 - по умолчанию и посчитайте сколько с E-value < 0.1)
12.(*)Найдите все открытые рамки длиной более ... (сами придумайте) в бактериальной хромосоме и посчитайте статистику совпадений с аннотированными кодирующими последовательностями белков. Считать,что предсказание совпадает с аннотацией если совпадают координаты стоп-кодонов и CDS на одной и той же цепи ДНК, т.к. ошибки в определении инициаторного кодона часты даже в аннотациях (подсказка: ...).
14.(*) Найдите частоты динуклеотидов в хромосоме человека, сравните их с ожидаемыми (подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y) )и определите динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
15.(tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
16.Постройте локальное множественное выравнивание трех нуклеотидных последовательностей
18.Переведите символы конца строки в формат unix
20.Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь





© Миронова Екатерина 2017 год