На главную |
Задание 1
1
Несколько файлов в формате fasta собрать в единый файл.
|
|
|
seqret -sequence fasta::emboss_0* -outseq united_random.fasta |
|
|
2
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
|
|
|
seqretsplit -sequence united_random.fasta |
|
|
3
Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
|
|
|
seqret -sequence @coord_deino.txt -outseq extracted_seq.fasta |
|
|
4
Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
|
|
|
transeq -frame 1 -table 11 -sequence extracted_seq.fasta -outseq translated_deino.fasta |
|
|
5
Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
|
|
|
getorf -sequence CP015081.embl -minsize 6000 -circular -outseq deino_minsizeorf6000.fasta |
|
|
6
Перевести выравнивание из формата fasta в формат msf.
|
|
|
aligncopy -sequences cata_align.fasta -aformat msf -outfile cata_align.msf |
|
|
7
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
|
|
|
infoalign -sequence cata_align.fasta -refseq 2 -only -name -idcount -outfile idcount_cata.txt |
|
|
8
(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
|
|
|
featcopy -features CP015081.embl -outfeat gff::DEINO.gff |
|
|
9
(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
|
|
|
extractfeat -sequence CP015081.embl -type CDS -join -outseq cds_deino.fasta |
|
|
10
Перемешать буквы в данной нуклеотидной последовательности.
|
|
|
shuffleseq -sequence before_shuff.fasta -outseq shuffled.fasta |
|
|
11
Создать три случайных нуклеотидных последовательностей длины 100.
|
|
|
makenucseq -amount 3 -length 100 -outseq 3_random.fasta |
|
|
13
(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.
|
|
|
tranalign -asequence nucseqcut.fasta -bsequence cata_align.fasta -outseq aligned_as_proteins.fasta |
|
|
14
Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
|
|
|
degapseq -sequence cata_align.fasta -outseq cata_align_degapped.fasta |
|
|
16
Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.
|
|
|
seqret -sequence sra_data.fastq -outseq fasta::sra_data.fasta |
|
|
Задание 2
Задача 2
Найти все открытые рамки длиной более 60 аминокислотных остатков в бактериальной хромосоме и посчитать статистику совпадений с аннотированными кодирующими последовательностями белков. Считать, что предсказание совпадает с аннотацией, если совпадают координаты стоп-кодонов на одной и той же цепи ДНК (ошибки в определении инициаторного кодона часты даже в аннотациях).
chain | ORF | CDS | CDS+ORF | (CDS and ORF)/CDS% | (ORF/CDS) | (ORF\(CDS and ORF))/CDS |
forward | 28342 | 1250 | 1241 | 99.28% | 22.6736 | 21.6808 |
reverse | 28014 | 1314 | 1306 | 99.3911719939% | 21.3196347032 | 20.3257229833 |
total | 56356 | 2564 | 2547 | 99.3369734789% | 21.9797191888 | 20.986349454 |
Данный скрипт устанавливает соответствие между orf, найденной при помощи программы getorf и между аннотированными кодирующими последовательностями. Как видно из полученных данных, ORF с минимальной длиной 60 нуклеотидов находится примерно в 20 раз больше, чем аннотировано CDS, это связано с тем, что getorf запущенная с параметром -find по умолчанию воспринимает orf как транслированный участок последовательности между двумя стоп кодонами и конечно не любой такой участок в действительности будет являться белком. Также программа getorf находит не все проаннотированные последовательности CDS. Это происходит потому, что часть последовательностей являются автоматически проаннотированными псевдогенами не имеющими стоп кодона. Одна из последовательностей не находится скриптом, потому что находится на месте breakpoint (место, где соединяются начало и конец, как они проаннотированы внутри хромосомы) и программа getorf, например присваивает одному из концов такой последовательности координату, которая больше чем координата конца хромосомы.
© Кристина Перевощикова, 2017