На главную

Задание 1

1

Несколько файлов в формате fasta собрать в единый файл.

Команда Входные данные Результат
seqret -sequence fasta::emboss_0* -outseq united_random.fasta
emboss_001.fasta emboss_002.fasta emboss_003.fasta emboss_004.fasta emboss_005.fasta emboss_006.fasta emboss_007.fasta emboss_008.fasta emboss_009.fasta emboss_010.fasta united_random.fasta

2

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

Команда Входные данные Результат
seqretsplit -sequence united_random.fasta
united_random.fasta emboss_001.fasta emboss_002.fasta emboss_003.fasta emboss_004.fasta emboss_005.fasta emboss_006.fasta emboss_007.fasta emboss_008.fasta emboss_009.fasta emboss_010.fasta

3

Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

Команда Входные данные Результат
seqret -sequence @coord_deino.txt -outseq extracted_seq.fasta
coord_deino.txt CP015081.embl extracted_seq.fasta

4

Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

Команда Входные данные Результат
transeq -frame 1 -table 11 -sequence extracted_seq.fasta -outseq translated_deino.fasta
extracted_seq.fasta translated_deino.fasta

5

Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.

Команда Входные данные Результат
getorf -sequence CP015081.embl -minsize 6000 -circular -outseq deino_minsizeorf6000.fasta
CP015081.embl deino_minsizeorf6000.fasta

6

Перевести выравнивание из формата fasta в формат msf.

Команда Входные данные Результат
aligncopy -sequences cata_align.fasta -aformat msf -outfile cata_align.msf
cata_align.fasta cata_align.msf

7

Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

Команда Входные данные Результат
infoalign -sequence cata_align.fasta -refseq 2 -only -name -idcount -outfile idcount_cata.txt
cata_align.fasta idcount_cata.txt

8

(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

Команда Входные данные Результат
featcopy -features CP015081.embl -outfeat gff::DEINO.gff
CP015081.embl DEINO.gff

9

(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

Команда Входные данные Результат
extractfeat -sequence CP015081.embl -type CDS -join -outseq cds_deino.fasta
CP015081.embl cds_deino.fasta

10

Перемешать буквы в данной нуклеотидной последовательности.

Команда Входные данные Результат
shuffleseq -sequence before_shuff.fasta -outseq shuffled.fasta
before_shuff.fasta shuffled.fasta

11

Создать три случайных нуклеотидных последовательностей длины 100.

Команда Входные данные Результат
makenucseq -amount 3 -length 100 -outseq 3_random.fasta
- 3_random.fasta

13

(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.

Команда Входные данные Результат
tranalign -asequence nucseqcut.fasta -bsequence cata_align.fasta -outseq aligned_as_proteins.fasta
nucseqcut.fasta cata_align.fasta aligned_as_proteins.fasta

14

Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

Команда Входные данные Результат
degapseq -sequence cata_align.fasta -outseq cata_align_degapped.fasta
cata_align.fasta cata_align_degapped.fasta

16

Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.

Команда Входные данные Результат
seqret -sequence sra_data.fastq -outseq fasta::sra_data.fasta
sra_data.fastq sra_data.fasta

Задание 2

Задача 2

Найти все открытые рамки длиной более 60 аминокислотных остатков в бактериальной хромосоме и посчитать статистику совпадений с аннотированными кодирующими последовательностями белков. Считать, что предсказание совпадает с аннотацией, если совпадают координаты стоп-кодонов на одной и той же цепи ДНК (ошибки в определении инициаторного кодона часты даже в аннотациях).

Скрипт

Исходные данные

chain ORF CDS CDS+ORF (CDS and ORF)/CDS% (ORF/CDS) (ORF\(CDS and ORF))/CDS
forward 28342 1250 1241 99.28% 22.6736 21.6808
reverse 28014 1314 1306 99.3911719939% 21.3196347032 20.3257229833
total 56356 2564 2547 99.3369734789% 21.9797191888 20.986349454

Данный скрипт устанавливает соответствие между orf, найденной при помощи программы getorf и между аннотированными кодирующими последовательностями. Как видно из полученных данных, ORF с минимальной длиной 60 нуклеотидов находится примерно в 20 раз больше, чем аннотировано CDS, это связано с тем, что getorf запущенная с параметром -find по умолчанию воспринимает orf как транслированный участок последовательности между двумя стоп кодонами и конечно не любой такой участок в действительности будет являться белком. Также программа getorf находит не все проаннотированные последовательности CDS. Это происходит потому, что часть последовательностей являются автоматически проаннотированными псевдогенами не имеющими стоп кодона. Одна из последовательностей не находится скриптом, потому что находится на месте breakpoint (место, где соединяются начало и конец, как они проаннотированы внутри хромосомы) и программа getorf, например присваивает одному из концов такой последовательности координату, которая больше чем координата конца хромосомы.


© Кристина Перевощикова, 2017