Остальные пункты первого задания
6. С помощью
seqret перевести выравнивание из fasta-формата в .msf.
На вход подается выравнивание:
alignment.fasta:
seqret alignment.fasta msf::alignment.msf
а на выходе получаем то же выравнивание, но уже в формате .msf:
alignment.msf.
7. С помощью команды
infoalign выдать в выходной поток число
совпадающих букв между второй последовательностью выравнивания и всеми остальными
(на выходе только имя последовательности и число). На вход подавался файл с
выравниванием пяти последовательностей:
aligns.msf:
infoalign aligns.msf info_align.txt -refseq 2 -only -name -idcount
Был получен
info_align.txt. Так как я не придумала,
как отменить запись в файл и направить выдачу в stdout, эта задача решалась в лоб:
cat info_align.txt
в результате чего получаем:
8. C помощью команды
featcopy перевести аннотации особенностей в
записи формата .gb в табличный формат .gff. На вход подавалась уже упомянутая
ранее нуклеотидная последовательность
sequence.gb:
featcopy sequence.gb -auto
в результате чего был получен файл с названием по умолчанию:
sequence.gff, содержащий аннотации особенностей в формате
таблицы.
9. С помощью
extractfeat из одного файла с хромосомой в формате .gb
получить fasta файл с кодирующими последовательностями; (*) добавить в описание
каждой последовательности функцию белка (из поля product). На вход опять подавался
файл
sequence.gb:
extractfeat sequence.gb info.fasta -type CDS -describe product
На выходе получаем файл
info.fasta со всеми
кодирующими последовательностями из входного файла, а также с описаниями
функции каждого белка, например, (product="hypothetical protein").
10. С помощью
shuffleseq* перемешать буквы в данной нуклеотидной
последовательности. На вход подавался файл
gene.fasta
с последовательностью некоторого гена:
shuffleseq gene.fasta shuffled.fasta
и получаем на выходе файл:
shuffled.fasta.
* мною использовалась команда
shuffleseq, так как она входит в
EMBOSS, который мы изучаем, в отличие от
shuffle, которая входит в
biosquid.
Далее предлагалось проверить найдет ли blastn достоверные (e-value до 0.1)
сходные последовательности в нуклеотидном банке данных. Для этого был осуществлен
поиск blastn с параметрами по умолчанию. На рис. 1 приведены результаты поиска.
Рис. 1. Результаты поиска blastn для перемешанной
последовательности
Как видно на рисунке, было найдено 10 последовательностей с e-value меньше 0.1,
однако query cover очень низкий. К тому же, я бы скорее использовала пороговое
значение e-value меньше 0.001. Для исходной последовательности, очевидно, было
найдено большое количество находок с очень низким e-value (данные не приведены),
что подтверждает тот факт, что этот параметр позволяет отсеивать недостоверные
находки.
11. С помощью
cusp найти частоты кодонов в данных кодирующих
последовательностях. На вход подавался файл
info.fasta:
cusp info.fasta kodons.cusp
и в итоге был получен файл
kodons.cusp, содержащий
статистику по всем кодонам в исходных CDS.
12. С помощью
compseq найти частоты динуклеотидов в данной
нуклеотидной последовательности и сравнить их с ожидаемыми. На вход подавался
файл
gene.fasta:
compseq gene.fasta gene.compseq -word 2 -calcfreq
В выходном файле
gene.compseq содержатся частоты
динуклеотидов и их отношение к соответствующим ожидаемым частотам.
13. С помощью
tranalign выровнять кодирущие последовательности
соответственно выравниванию белков (их продуктов). На вход подавался файл
info.fasta:
слишком сложно, до свидания!