Отчет
Упражнения:
1) (seqret) Несколько файлов в формате fasta собрать в единый файл.
Команда seqret @mylist.txt mysequences.fasta
содержимое mylist.txt:
embl:AEC06720.1
embl:x65923
На выходе файл с обоими последовательностями
2) (seqretsplit) Один файл в формате fasta с несколькими последовательностями
разделить на отдельные fasta файлы.
seqretsplit mysequences.fasta
на выходе два файла aec06720.1.fasta и x65923.fasta
3) (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до" и сохранить в одном fasta файле.
seqret @mylist_1.txt out.fasta
Содержание @mylist_1.txt:
sequence_1.fasta[444:941]
sequence_1.fasta[1624:2730]
sequence_1.fasta[4607:5770]
4) (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле,
в аминокислотные, используя указанную таблицу генетического кода.
Результат - в одном fasta файле.
Взят файл out.fasta, полученный в прошлом задании.
transeq out.fasta
5) (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
transeq x65923.fasta out_frames.fasta -frame=6
6) (seqret) Перевести выравнивание и из fasta формате в формат .msf
seqret mysequences.fasta msf::mysequences.msf
7) (infoalign) Выдать в выходной поток число совпадающих букв
между второй последовательностью выравнивания и всеми остальными
(на выходе только имя последовательности и число)
infoalign my_sequences.fasta info_seq.txt -only -name -idcount
cat mylist.txt | tail -1 | head -2
8) (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
featcopy annotation.gb -out annotation.gff
9) (extractfeat) Из данного файла с хромосомой в формате .gb
получить fasta файл с кодирующими последовательностями
extractfeat U04608.1.gbk -type CDS 1.txt
10) (shuffle) Перемешать буквы в данной нуклеотидной последовательности;
shuffle x65923.fasta > x65923_shuf.fasta
Последовательности были выровнены с помощью bl2seq,
e_value = 0,35, Max_score = 17.1, Total_score = 43.5, Query_cover = 16%.
В общем хорошо перетасовалось.
11) (cusp) Найдите частоты кодонов в данных кодирующих последовательностях
cusp x65923.fasta x65923_codon.fasta
12) (compsec) Найдите частоты динуклеотидов в данной
нуклеотидной последовательности и сравните их с ожидаемыми
compseq x65923.fasta -word 2 -calcfreq two.compseq
13) (tranalign) Выровняйте кодирующие последовательности
соответственно выравниванию белков - их продуктов
tranalign mysequences.fasta mysequences_pr.fasta out.fasta
Задание 1
Трансляции открытых рамок с помощью команды getorf.
getorf sequence_ch_2.fasta -circular -minsize 180 -table 11 -find 0
Список координат и ориентаций найденных открытых рамок с помощью infoseq.
infoseq nc_009050.orf -only -name -description -length > task_1_table.txt
Приведение файла в необходимый вид было осуществлено с помощью python скрипта.
Файл приведен в вид : Name from to ori Length
Задание 2
Далее был скачен файл NC_009050.ptt и приведен в нужный вид(locus_tag,from,to,ori,length,PID,product)
После этого файлы task_1_table.txt и NC_009050.ptt были совмещены и отсортированны по start.
Можно наблюдать, что для каждого аннотированного файла есть открытая рамка считывания,найденная с помощью getorf,
которая не включает стоп-кодоны(поэтому координаты немного другие).
Однако открытых рамок естественно немного больше чем аннотированных последовательностей.