seqret "seq*.fasta" tog.fastaрезультат: 2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. Исходые данные: Командная строка:
seqretsplit tog.fastaрезультат: 3.Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле. я взяла в файле координаты кодирующих последовательностей FT tRNA 1..65 FT gene 69..899 FT CDS 69..899 Особенный метод Исходые данные: Командная строка:
extractfeat -sequence MH001205.embl -outseq mh001205.fasta
extractfeat -sequence MH001205.embl -sbegin_sequence 100 -send_sequence 500 -outseq mh001205_new.fasta -sreverse1- пытаюсь управлять выходом результат: Действенный метод Исходые данные: Командная строка:
seqret embl::MH001205.embl[1:65] all_cod.fasta-запись первой кодирующей последовательности
seqret embl::MH001205.embl[69:899] -stdout >> all_cod.fasta-запись в файл второй кодирующей последовательности В данной хромосоме больше кодирующих последовательностей нет, как и кодирующих на другой цепи. Но для задания вырежу одну последовательность с комплиментарной цепочки
seqret embl::MH001205.embl[69:899:r] -stdout >> all_cod.fasta- запись в файл последовательности комплиментарной цепи на которой тоже могут быть кодирующие участки. результат: eno.txt MH001205.embl seqret @eno.txt eno.fasta 4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. Исходые данные: Командная строка:
transeq mus_feat.fasta -table 1 -frame 1 mus_prot.fastaрезультат: 5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности. Исходые данные: Командная строка:
getorf sequence_mus.gb -minsize 20 orf_mus.fastaрезультат: 6.Перевести выравнивание из формата fasta в формат msf. Исходые данные: Командная строка:
seqret needle.fasta msf::needle.msfрезультат: 7.Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа). Исходые данные: eno_for_needle.txt файл с именами последовательностей Командная строка:
seqret @eno_for_needle.txt eno_for_needle.fasta читаем последовательности muscle -in eno_for_needle.fasta -out eno_ali.fasta строим по ним выравнивания infoalign eno_ali.fasta refseq=2 -only -name -idcount eno_ali.infoalignрезультат: 8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff. Исходые данные: sequence_mus.gb Командная строка:
featcopy sequence_mus.gb sequence_mus.gffрезультат: 9.(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. Исходые данные: Командная строка:
extractfeat -sequence MH001205.embl -outseq mh001205.fastaрезультат: 10.Перемешать буквы в данной нуклеотидной последовательности. Исходые данные: Командная строка:
shuffleseq seq2.fasta seq2_sh.fastaрезультат: 11.Создать три случайных нуклеотидных последовательностей длины 100. Исходые данные: - Командная строка:
makenucseq -amount 3 -length 100 -outseq 3_random.fasta -autoрезультат: 12.Найти частоты кодонов в данных кодирующих последовательностях. Исходые данные: Командная строка:
cusp mh001205.fasta codon_cuspрезультат: 13.(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов. Исходые данные:
mus_nuc_2.fasta-просто 2 кодирующих последовательности белка
mus_prot_2.fasta -транслированные белки с этих последовательтностей (transeq)
mus_2prot.needle -выравнивание белков needle (
needle mus_prot_2.fasta:NC_000076_6467_6623_1 mus_prot_2.fasta:NC_000076_57034_57085_1 -aformat fasta -auto -outfile mus_2prot.needle) Командная строка:
mus_nuc_2.fasta mus_2prot.needle ali_nuc_tranalignрезультат: *работает и с последовательностями в фасте, но не имеет никакого смысла, тк гэпами просто заполняется разность в длинне. 14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей). Исходые данные:
mus_2prot.needle -выравнивание белков needle
Командная строка:degapseq mus_2prot.needle degap_needleрезультат:
degap_needle Получился обычный фаста формат
15.Перевести символы конца строки из формата Windows в формат Unix. Исходые данные: Командная строка:noreturn win.docx win.noreturn -system unixрезультат: 16.Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Исходые данные: Командная строка:
sed -n '1~4s/^@/>/p;2~4p' sra_data.fastq > sra_data.fastaрезультат:
Описание: выдача программы состоит из нескольких файлов: в файле "random" -сгенерированные 100 последовательностей с заданной длинной; при этом создается локальная база данных для данного генома (файлы вида name.fasta.*); при запуске программы на консоли появляетя среднее значение.