EMBOSS и сравнение геномов
1. Команды EMBOSS
-
Задание: несколько файлов в формате fasta собрать в единый файл.
Выполнение:
Использовавшиеся данные: 3
последовательности в fasta-формате и txt-файл с названиями этих последовательностей.
На выходе получаем
файл
с тремя заданными последовательностями.
Команда: seqret @1list.txt sequences.fasta
-
Задание: один файл в формате fasta с несколькими
последовательностями разделить на отдельные fasta файлы.
Выполнение:
Использовавшиеся данные:
файл с последовательностями (3). На выходе получаем 3 последовательности.
Команда: seqretsplit sequences.fasta
-
Задание: из файла с хромосомой в формате .gb вырезать
три кодирующих последовательности по указанным координатам "от", "до",
"ориентация" и сохранить в одном fasta файле.
Выполнение:
Использовавшиеся данные:
файл с id и координатами нужных последовательностей. На выходе получаем
файл
с этими последовательностями.
Команда: seqret @3list.txt fasta:chromcds.fasta
-
Задание: транслировать кодирующие последовательности,
лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу
генетического кода. Результат - в одном fasta файле.
Выполнение:
Использовавшиеся данные:
файл с кодирующей последовательностью. На выходе получаем
файл
с аминокислотной последовательностью.
Команда: transeq chromcds.fasta fasta:chromprot.fasta
-
Задание: транслировать данную нуклеотидную последовательность
в шести рамках.
Выполнение:
Использовавшиеся данные:
файл с кодирующей последовательностью. '-frame n' означает транслирование в n
рамок. Выходной
файл
в формате pep.
Команда: transeq -frame 6 chromcds.fasta 6prot.pep
-
Задание: перевести выравнивание и из fasta формате
в формат .msf.
Выполнение:
Использовавшиеся данные:
выравнивание fasta-формате. На выходе получаем
файл
с выравниванием в msf-формате.
Команда: seqret align.fasta msf:align.msf
-
Задание: выдать в выходной поток число совпадающих букв
между второй последовательностью выравнивания и всеми остальными.
Выполнение:
Использовавшиеся данные:
выравнивание в fasta-формате. '-refseq 2' значит, что за сравниваем все
последовательности со второй. '-only -name -idcount' значит, что в
выходной поток попадают только название последовательности и число совпадающих
букв. 'stdout' отправить все в стандартный поток, а не в файл.
Команда: infoalign -refseq 2 -only -name -idcount align.fasta stdout
-
Задание: Перевести аннотации особенностей в записи формата
.gb в табличный формат .gff
Выполнение:
Использовавшиеся данные:
gb-файл с пластидой. На выходе получаем
файл
с аннотациями особенностей в табличном формате.
Команда: featcopy -features feat.gb -outfeat gfile.gff
-
Задание: перемешать буквы в данной нуклеотидной
последовательности.
Выполнение:
Использовавшиеся данные:
исходный fasta-файл. На выходе получаем
файл
с перемешанными нуклеотидами.
Команда: shuffle 1.fasta > ev1.fasta
-
Задание: найдите частоты кодонов в данных кодирующих
последовательностях.
Выполнение:
Использовавшиеся данные:
файл с кодирующей последовательностью. На выходе получаем
файл
с частотами кодонов.
Команда: cusp chromcds.fasta chromcds.cusp
-
Задание: найдите частоты динуклеотидов в данной нуклеотидной
последовательности и сравните их с ожидаемыми.
Выполнение:
Использовавшиеся данные:
файл в формате fasta. '-word 2' значит, что находим частоты слов длины 2, т.е.
динуклеотиды. На выходе получаем
файл
с частотами.
Команда: compseq ev1.fasta -word 2 -calcfreq ev1.composition
-
Задание: выровняйте кодирующие последовательности
соответственно выравниванию белков - их продуктов.
Выполнение:
Использовавшиеся данные:
файл с кодирующими последовательностями, выравнивание их белков. На выходе
получаем
файл
с выравниванием кодирующих последовательностей.
Команда: tranalign chromcds.fasta protalign.fasta alignchrom.fasta
2. Карта локального сходства
Взял две археи: Halobacterium sp. JI20-1 (по оси У) - LN831302
и Halobacterium sp. NRC-1 (по оси Х) - AE004437. Размер слова 32 убирает большинство шумов,
а карта не меняется. Сходство между гомологичными участками составляет 82%.
Красные прямоугольники 1, 2, 3, 5 - инверсии. Красные
прямоугольники 4 - инверсированный участкок с транслокациями. Прямоугольник 6 - регион
с большим количеством эволюционных изменений, разобраться в которых не просто.
Синий кружок 1 - инверсия участка. Синий
кружок 2 - делеция участка у бактерии по оси Х.