IMPERIAL

Entrez Direct, BLAST+, EMBOSS



Задание 1

Упр. 1

Несколько файлов в формате fasta собрать в единый файл.


seqret "/P/y21/term3/pr9/to_join/*" "fasta::task1.fasta"

Упр. 2

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.


seqretsplit "/P/y21/term3/pr9/to_split/coding1.fasta" "fasta::this_doesnt_work.fasta"


В выдаче несколько файлов, в каждом лежит по одной последовательности.

Упр. 3

Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.


extractseq "NZ_CP015223.gb" "fasta::task3.fasta" -regions 1121-1182,1289-1468,1787-2266 -sreverse1 Y -separate Y

Упр. 4

Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.


transeq "/P/y21/term3/pr9/coding.fasta" "fasta::task4.fasta" -frame 1 -table 0

Упр. 5

Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности, используя указанную таблицу генетического кода.


getorf "/P/y21/term3/pr9/coding.fasta" "fasta::task5.fasta" -minsize 10 -table 23

Упр. 6

Перевести выравнивание из формата fasta в формат msf.


seqret "/P/y21/term3/pr9/alignment.fasta" "msf::task6.msf"

Упр. 7

Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).


infoalign "/P/y21/term3/pr9/alignment.fasta" "task7.infoalign" -refseq 2 -only -idcount -name

Упр. 8

Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.


featcopy "/P/y21/term3/pr9/chromosome.gb" "task8.gff" -offormat2 gff -warning N

Упр. 9

Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.


extractfeat "NZ_CP015223.gb" "fasta::task9.fasta" -type CDS

Упр. 10

Перемешать буквы в данной нуклеотидной последовательности.


shuffleseq "/P/y21/term3/pr9/coding.fasta" "fasta::task10.fasta"

Упр. 11

Создать три случайных нуклеотидных последовательностей длины 100.


makenucseq "fasta::task11.fasta" -amount 3 -length 100 -filter

Упр. 12

Найти частоты кодонов в данных кодирующих последовательностях.


cusp "/P/y21/term3/pr9/to_split/coding1.fasta" "task12.cusp"

Упр. 13

Выровнять кодирующие последовательности соответственно выравниванию белков – их продуктов.


tranalign "/P/y21/term3/pr9/13/gene_sequences.fasta" "/P/y21/term3/pr9/13/protein_alignment.fasta" "fasta::task13.fasta"

Упр. 14

Удалить символы гэпов из выравнивания.


degapseq "/P/y21/term3/pr9/alignment.fasta" "fasta::task14.fasta"

Упр. 15

Перевести символы конца строки из формата Windows в формат Unix.


noreturn "crfile.fasta" "task15.noreturn"

Задание 2

Созданный скрипт: #!/usr/bin/bash
epost -db "nuccore" -id ${1} -format "acc" | efetch -format "docsum" -mode "json" > "${1}.json"
epost -db "nuccore" -id ${1} -format "acc" | elink -target "protein" | efetch -format "fasta" > "${1}_proteins.fasta"
epost -db "assembly" -id ${2} -format "acc" | efetch -format "docsum" -mode "xml" | xtract -pattern "DocumentSummary" -element "Id,ContigN50"

Для его проверки я использовал уже упомянутую запись NZ_CP015223 в базе данных Nucleotide и сборку генома GCA_003604245.1.



Выдача скрипта:


2022931 46102