Учебный сайт Морозова Александра
<< Назад к странице 3 семестра

Практикум 9

Упражнение №1

Задание:

Несколько файлов в формате fasta собрать в единый файл

Исходные данные:

Файлы с диска P. Ссылка на архив с файлами. Их имена: AAC74885.2.fasta; AAC74886.1.fasta; AAC74887.1.fasta; AAC74888.1.fasta; AAC74889.2.fasta; AAC74890.1.fasta; AAC74891.2.fasta; AAC74892.1.fasta; AAC74893.1.fasta.

Использованная команда:

Данное задание я выполнил двумя способами. Первый - командой EMBOSS seqret. Однако здесь был нюанс, который заключался в том, что все указанные файлы содержат в названии ДВЕ точки: AAC74885 . 2 . fasta. Из-за этого, при попытке ввести параметры самому, возникала ошибка:

$ seqret AA*.fasta united1.fasta
Error: Argument 'AAC74887.1.fasta' : Too many parameters 3/2

Когда же я вводил команду seqret без параметров, после чего отвечал на ее вопросы, все получалось:

$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): AA*.fasta
output sequence(s) [3_cds_aac74886.fasta]: united.fasta
ls
AAC74885.2.fasta  AAC74887.1.fasta  AAC74889.2.fasta  AAC74891.2.fasta  AAC74893.1.fasta
AAC74886.1.fasta  AAC74888.1.fasta  AAC74890.1.fasta  AAC74892.1.fasta  united.fasta

Ссылка на файл united.fasta доступна ниже. Второй способ - использование команды cat:

cat AA*.fasta >> united_cat.fasta

Результат был аналогичен использованию seqret. Ссылка на файл united_cat.fasta доступна ниже.

Результаты:

united.fasta; united_cat.fasta


Упражнение №2

Задание:

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Исходные данные:

Файл coding1.fasta из папки to_split диска P.

Использованная команда:

seqretsplit 
Read sequences and write them to individual files
Input (gapped) sequence(s): coding1.fasta
output sequence(s) [3_cds_aac73113.fasta]:
 ls
coding1.fasta                    u00096.3_cds_aac73115.1_4.fasta  u00096.3_cds_aac73118.1_7.fasta  u00096.3_cds_aac73121.1_10.fasta
u00096.3_cds_aac73113.1_2.fasta  u00096.3_cds_aac73116.1_5.fasta  u00096.3_cds_aac73119.1_8.fasta  u00096.3_cds_aac73122.1_11.fasta
u00096.3_cds_aac73114.1_3.fasta  u00096.3_cds_aac73117.1_6.fasta  u00096.3_cds_aac73120.1_9.fasta

Результаты:

split_files.tar


Упражнение №4

Задание:

Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.

Исходные данные:

Файл coding1.fasta

Использованная команда:

Задал команду без дополнительных параметров, поэтому были использованы значения по умолчанию.

 transeq coding1.fasta translated.fasta
Translate nucleic acid sequences

Результаты:

translated.fasta


Упражнение №5

Задание:

Транслировать данную нуклеотидную последовательность в шести рамках.

Исходные данные:

Файл с диска P coding.fasta

Использованная команда:

Поскольку каждая аминокислота кодируется триплетным кодоном, то и различных рамок считывания может быть три, в зависимости от того, с какого по номеру нуклеотида первого кодона начинается трансляция. В программе transeq они обозначаются 1, 2, 3. Если рассматривать также реверсную последовательность, число рамок считывания увеличивается до 6. В программе transeq реверсные рамки обозначаются -1, -2, -3. В итоге получаем разные белки.

transeq -frame 6 coding.fasta 6frames.fasta
Translate nucleic acid sequences

Результаты:

6frames.fasta


Упражнение №6

Задание:

Перевести выравнивание из fasta формата в формат .msf

Исходные данные:

Файл с диска P alignment.fasta

Использованная команда:

 seqret alignment.fasta msf::alignment.msf
Read and write (return) sequences

Результаты:

alignment.msf


Упражнение №7

Задание:

Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число

Исходные данные:

Файл alignment.msf, полученный в предыдущем упражнении

Использованная команда:

-refseq 2 означает, что сравнение производится относительно второй последовательности в выравнивании; -only -idcount -name означает, что я прошу выдать только имя последовательности и число букв данной последовательности, совпадающих с последовательностью сравнения. Как можно видеть, сама вторая последовательность тоже присутствует в списке, и число напртив нее можно интерпретировать также и как длину этой последовательности.

 infoalign alignment.msf -stdout -refseq 2 -only -idcount -name
Display basic information about a multiple sequence alignment
Output file [stdout]:

Результаты:

PHZA_PSECL    90
VIBB_VIBCH    293
YRDC_BACSU    37
Y2499_AGRT5   44
Y2795_CAUCR   49
RUTB_ECO57    49
YECD_ECOLI    40
Y4030_CLOAB   34
YWOC_BACSU    46


Упражнение №8

Задание:

(featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

Исходные данные:

Файл с диска P chromosome.gb

Использованная команда:

 featcopy chromosome.gb chromosome.gff
Read and write a feature table
Warning: Unrecognised special GFF feature tag 'ncrna_class'

Результаты:

chromosome.gff


Упражнение №10

Задание:

Перемешать буквы в данной нуклеотидной последовательности.

Исходные данные:

coding.fasta

Использованная команда:

 shuffleseq coding.fasta fasta::shuffled.fasta
Shuffle a set of sequences maintaining composition

Результаты:

shuffled.fasta


Упражнение №13

Задание:

Найдите частоты кодонов в данных кодирующих последовательностях

Исходные данные:

Файл coding.fasta

Использованная команда:

                                          
 cusp coding.fasta codones.cusp
Create a codon usage table from nucleotide sequence(s)

Результаты:

codones.cusp


Упражнение №15

Задание:

(tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов

Исходные данные:

Файлы с диска P: gene_sequences.fasta; protein_alignment.fasta

Использованная команда:

                                          
 tranalign gene_sequences.fasta protein_alignment.fasta gene_alignment.fasta
Generate an alignment of nucleic coding regions from aligned proteins

Результаты:

gene_alignment.fasta; gene_alignment.msf


Упражнение №19

Задание:

Создайте три случайных нуклеотидных последовательностей длины сто

Исходные данные:

Отсутствуют

Использованная команда:

                                          
 makenucseq -amount 3 -length 100 -outseq fasta::random.fasta
Create random nucleotide sequences
Codon usage file (optional):

Результаты:

random.fasta