Селифонов (slfn) учебный сайт; Обо мне

Практикум 9

Задание 1

Большинство упражнений я выполнял, пользуясь файлами в папке /P/y21/term3/pr9 на kodomo. В упражнении 9 я использовал файл NZ_CP015223.gb, доступный по данной ссылке.

Упр. 1

Несколько файлов в формате fasta собрать в единый файл.

seqret "/P/y21/term3/pr9/to_join/*" "fasta::task1.fasta"

task1.fasta

Упр. 2

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

seqretsplit "/P/y21/term3/pr9/to_split/coding1.fasta" "fasta::this_doesnt_work.fasta"

В выдаче несколько файлов, в каждом лежит по одной последовательности.

Упр. 3

Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

extractseq "NZ_CP015223.gb" "fasta::task3.fasta" -regions 1121-1182,1289-1468,1787-2266 -sreverse1 Y -separate Y

task3.fasta

Упр. 4

Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

transeq "/P/y21/term3/pr9/coding.fasta" "fasta::task4.fasta" -frame 1 -table 0

task4.fasta

Упр. 5

Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности, используя указанную таблицу генетического кода.

getorf "/P/y21/term3/pr9/coding.fasta" "fasta::task5.fasta" -minsize 10 -table 23

task5.fasta

Упр. 6

Перевести выравнивание из формата fasta в формат msf.

seqret "/P/y21/term3/pr9/alignment.fasta" "msf::task6.msf"

task6.msf

Упр. 7

Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

infoalign "/P/y21/term3/pr9/alignment.fasta" "task7.infoalign" -refseq 2 -only -idcount -name

task7.infoalign

Упр. 8

Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

featcopy "/P/y21/term3/pr9/chromosome.gb" "task8.gff" -offormat2 gff -warning N

task8.gff

Упр. 9

Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

extractfeat "NZ_CP015223.gb" "fasta::task9.fasta" -type CDS

task9.fasta

Упр. 10

Перемешать буквы в данной нуклеотидной последовательности.

shuffleseq "/P/y21/term3/pr9/coding.fasta" "fasta::task10.fasta"

task10.fasta

Упр. 11

Создать три случайных нуклеотидных последовательностей длины 100.

makenucseq "fasta::task11.fasta" -amount 3 -length 100 -filter

task11.fasta

Упр. 12

Найти частоты кодонов в данных кодирующих последовательностях.

cusp "/P/y21/term3/pr9/to_split/coding1.fasta" "task12.cusp"

task12.cusp

Упр. 13

Выровнять кодирующие последовательности соответственно выравниванию белков – их продуктов.

tranalign "/P/y21/term3/pr9/13/gene_sequences.fasta" "/P/y21/term3/pr9/13/protein_alignment.fasta" "fasta::task13.fasta"

task13.fasta

Упр. 14

Удалить символы гэпов из выравнивания.

degapseq "/P/y21/term3/pr9/alignment.fasta" "fasta::task14.fasta"

task14.fasta

Упр. 15

Перевести символы конца строки из формата Windows в формат Unix.

noreturn "crfile.fasta" "task15.noreturn"

Задание 2

Созданный скрипт доступен по данной ссылке. Для его проверки я использовал уже упомянутую запись NZ_CP015223 в базе данных Nucleotide и сборку генома GCA_003604245.1.

Выдача скрипта:

2022931 46102