Практикум 9
Задание 1
Большинство упражнений я выполнял, пользуясь файлами в папке /P/y21/term3/pr9 на kodomo. В упражнении 9 я использовал файл NZ_CP015223.gb, доступный по данной ссылке.
Упр. 1
Несколько файлов в формате fasta собрать в единый файл.
seqret "/P/y21/term3/pr9/to_join/*" "fasta::task1.fasta"
Упр. 2
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
seqretsplit "/P/y21/term3/pr9/to_split/coding1.fasta" "fasta::this_doesnt_work.fasta"
В выдаче несколько файлов, в каждом лежит по одной последовательности.
Упр. 3
Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
extractseq "NZ_CP015223.gb" "fasta::task3.fasta" -regions 1121-1182,1289-1468,1787-2266 -sreverse1 Y -separate Y
Упр. 4
Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
transeq "/P/y21/term3/pr9/coding.fasta" "fasta::task4.fasta" -frame 1 -table 0
Упр. 5
Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности, используя указанную таблицу генетического кода.
getorf "/P/y21/term3/pr9/coding.fasta" "fasta::task5.fasta" -minsize 10 -table 23
Упр. 6
Перевести выравнивание из формата fasta в формат msf.
seqret "/P/y21/term3/pr9/alignment.fasta" "msf::task6.msf"
Упр. 7
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
infoalign "/P/y21/term3/pr9/alignment.fasta" "task7.infoalign" -refseq 2 -only -idcount -name
Упр. 8
Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
featcopy "/P/y21/term3/pr9/chromosome.gb" "task8.gff" -offormat2 gff -warning N
Упр. 9
Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
extractfeat "NZ_CP015223.gb" "fasta::task9.fasta" -type CDS
Упр. 10
Перемешать буквы в данной нуклеотидной последовательности.
shuffleseq "/P/y21/term3/pr9/coding.fasta" "fasta::task10.fasta"
Упр. 11
Создать три случайных нуклеотидных последовательностей длины 100.
makenucseq "fasta::task11.fasta" -amount 3 -length 100 -filter
Упр. 12
Найти частоты кодонов в данных кодирующих последовательностях.
cusp "/P/y21/term3/pr9/to_split/coding1.fasta" "task12.cusp"
Упр. 13
Выровнять кодирующие последовательности соответственно выравниванию белков – их продуктов.
tranalign "/P/y21/term3/pr9/13/gene_sequences.fasta" "/P/y21/term3/pr9/13/protein_alignment.fasta" "fasta::task13.fasta"
Упр. 14
Удалить символы гэпов из выравнивания.
degapseq "/P/y21/term3/pr9/alignment.fasta" "fasta::task14.fasta"
Упр. 15
Перевести символы конца строки из формата Windows в формат Unix.
noreturn "crfile.fasta" "task15.noreturn"
Задание 2
Созданный скрипт доступен по данной ссылке. Для его проверки я использовал уже упомянутую запись NZ_CP015223 в базе данных Nucleotide и сборку генома GCA_003604245.1.
Выдача скрипта:
2022931 46102