<< Назад к странице 3 семестра
Практикум 9
Упражнение №1
Задание:Несколько файлов в формате fasta собрать в единый файл
Исходные данные:
Файлы с диска P. Ссылка на архив с файлами. Их имена: AAC74885.2.fasta; AAC74886.1.fasta; AAC74887.1.fasta;
AAC74888.1.fasta; AAC74889.2.fasta; AAC74890.1.fasta; AAC74891.2.fasta; AAC74892.1.fasta; AAC74893.1.fasta.
Использованная команда:
Данное задание я выполнил двумя способами. Первый - командой EMBOSS seqret. Однако здесь был нюанс, который заключался в том,
что все указанные файлы содержат в названии ДВЕ точки: AAC74885 . 2 . fasta.
Из-за этого, при попытке ввести параметры самому, возникала ошибка:
$ seqret AA*.fasta united1.fasta
Error: Argument 'AAC74887.1.fasta' : Too many parameters 3/2
Когда же я вводил команду seqret без параметров, после чего отвечал на ее вопросы, все получалось:
$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): AA*.fasta
output sequence(s) [3_cds_aac74886.fasta]: united.fasta
ls
AAC74885.2.fasta AAC74887.1.fasta AAC74889.2.fasta AAC74891.2.fasta AAC74893.1.fasta
AAC74886.1.fasta AAC74888.1.fasta AAC74890.1.fasta AAC74892.1.fasta united.fasta
Ссылка на файл united.fasta доступна ниже. Второй способ - использование команды cat:
cat AA*.fasta >> united_cat.fasta
Результат был аналогичен использованию seqret. Ссылка на файл united_cat.fasta доступна ниже.
Результаты:
united.fasta; united_cat.fasta
Упражнение №2
Задание:
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Исходные данные:
Файл coding1.fasta из папки to_split диска P.
Использованная команда:
seqretsplit
Read sequences and write them to individual files
Input (gapped) sequence(s): coding1.fasta
output sequence(s) [3_cds_aac73113.fasta]:
ls
coding1.fasta u00096.3_cds_aac73115.1_4.fasta u00096.3_cds_aac73118.1_7.fasta u00096.3_cds_aac73121.1_10.fasta
u00096.3_cds_aac73113.1_2.fasta u00096.3_cds_aac73116.1_5.fasta u00096.3_cds_aac73119.1_8.fasta u00096.3_cds_aac73122.1_11.fasta
u00096.3_cds_aac73114.1_3.fasta u00096.3_cds_aac73117.1_6.fasta u00096.3_cds_aac73120.1_9.fasta
Результаты:
split_files.tar
Упражнение №4
Задание:
Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Исходные данные:
Файл coding1.fasta
Использованная команда:
Задал команду без дополнительных параметров, поэтому были использованы значения по умолчанию.
transeq coding1.fasta translated.fasta
Translate nucleic acid sequences
Результаты:
translated.fasta
Упражнение №5
Задание:
Транслировать данную нуклеотидную последовательность в шести рамках.
Исходные данные:
Файл с диска P coding.fasta
Использованная команда:
Поскольку каждая аминокислота кодируется триплетным кодоном, то и различных рамок считывания может быть три, в зависимости от того,
с какого по номеру нуклеотида первого кодона начинается трансляция. В программе transeq они обозначаются 1, 2, 3. Если рассматривать также
реверсную последовательность, число рамок считывания увеличивается до 6. В программе transeq реверсные рамки обозначаются -1, -2, -3.
В итоге получаем разные белки.
transeq -frame 6 coding.fasta 6frames.fasta
Translate nucleic acid sequences
Результаты:
6frames.fasta
Упражнение №6
Задание:
Перевести выравнивание из fasta формата в формат .msf
Исходные данные:
Файл с диска P alignment.fasta
Использованная команда:
seqret alignment.fasta msf::alignment.msf
Read and write (return) sequences
Результаты:
alignment.msf
Упражнение №7
Задание:
Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число
Исходные данные:
Файл alignment.msf, полученный в предыдущем упражнении
Использованная команда:
-refseq 2 означает, что сравнение производится относительно второй последовательности в выравнивании; -only -idcount -name означает,
что я прошу выдать только имя последовательности и число букв данной последовательности, совпадающих с последовательностью сравнения.
Как можно видеть, сама вторая последовательность тоже присутствует в списке, и число напртив нее можно интерпретировать также и как длину
этой последовательности.
infoalign alignment.msf -stdout -refseq 2 -only -idcount -name
Display basic information about a multiple sequence alignment
Output file [stdout]:
Результаты:
PHZA_PSECL 90
VIBB_VIBCH 293
YRDC_BACSU 37
Y2499_AGRT5 44
Y2795_CAUCR 49
RUTB_ECO57 49
YECD_ECOLI 40
Y4030_CLOAB 34
YWOC_BACSU 46
Упражнение №8
Задание:
(featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
Исходные данные:
Файл с диска P chromosome.gb
Использованная команда:
featcopy chromosome.gb chromosome.gff
Read and write a feature table
Warning: Unrecognised special GFF feature tag 'ncrna_class'
Результаты:
chromosome.gff
Упражнение №10
Задание:
Перемешать буквы в данной нуклеотидной последовательности.
Исходные данные:
coding.fasta
Использованная команда:
shuffleseq coding.fasta fasta::shuffled.fasta
Shuffle a set of sequences maintaining composition
Результаты:
shuffled.fasta
Упражнение №13
Задание:
Найдите частоты кодонов в данных кодирующих последовательностях
Исходные данные:
Файл coding.fasta
Использованная команда:
cusp coding.fasta codones.cusp
Create a codon usage table from nucleotide sequence(s)
Результаты:
codones.cusp
Упражнение №15
Задание:
(tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
Исходные данные:
Файлы с диска P: gene_sequences.fasta; protein_alignment.fasta
Использованная команда:
tranalign gene_sequences.fasta protein_alignment.fasta gene_alignment.fasta
Generate an alignment of nucleic coding regions from aligned proteins
Результаты:
gene_alignment.fasta; gene_alignment.msf
Упражнение №19
Задание:
Создайте три случайных нуклеотидных последовательностей длины сто
Исходные данные:
Отсутствуют
Использованная команда:
makenucseq -amount 3 -length 100 -outseq fasta::random.fasta
Create random nucleotide sequences
Codon usage file (optional):
Результаты:
random.fasta
|