EMBOSS и сравнение геномов
1. Отчёт о выполнении упражнений.
ЗаданиеКомандаВходВыход
1 Несколько файлов в формате fasta собрать в единый файл
 echo NC010103.fasta >> list.txt
 echo NC010167.fasta >> list.txt
 echo NC010740.fasta >> list.txt
 echo NC012442.fasta >> list.txt
 seqret @list.txt out.fasta 
NC010103.fasta
NC010167.fasta
NC010740.fasta
NC012442.fasta
list.txt
out.fasta
2 Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
  seqretsplit seqs4.fasta fasta::*.fasta 
seqs4.fasta nc_010103.1.fasta
nc_010740.1.fasta
nc_010167.1.fasta
nc_012442.1.fasta
3 Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
 echo seqs3.gb:1[2:15] >> list.txt
 echo seqs3.gb:2[4:20:r] >> list.txt
 echo seqs3.gb:3[100:125] >> list.txt 
 seqret @list.txt fasta::out.fasta
seqs3.gb
list.txt
out.fasta
4 Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
 transeq human_mito_cds.fasta fasta::out.fasta -table 2 
human_mito_cds.fasta out.fasta
5 Транслировать данную нуклеотидную последовательность в шести рамках.
 transeq seq.fasta out.fasta -frame 6 
seq.fasta out.fasta
6 Перевести выравнивание и из fasta формате в формат .msf
 seqret fasta::D_AgeI.fasta msf::D_AgeI.msf 
D_AgeI.fasta D_AgeI.msf
7 Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
 infoalign aln.msf stdout -only -name -simcount | head -n 2 | tail -n 1 
aln.msf
 SplZORFHP_3   27 
8 Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
 featcopy NC_009894.gbk gff::out.gff 
NC_009894.gbk out.gff
9* Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
 extractfeat NC_009894.gbk fasta::out.fasta -featinname 1 -describe product 
NC_009894.gbk out.fasta
10* Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)
 shuffle -o out.gbk NC_009894.gbk 
 
NC_009894.gbk out.gbk
С помощью blastn нашлось 5 "достоверных" (Evalue < 0.1) находок в банке nr/nt, но мин. Evalue=0.019 .
11 Найти частоты кодонов в данных кодирующих последовательностях
 cusp human_mito_cds.fasta codons.cusp 
human_mito_cds.fasta codons.cusp
12 Найти частоты динуклеотидов в данной нуклеотидной последовательности и сравнить их с ожидаемыми
 compseq human_mito_cds.fasta out.compseq -word 2 -calcfreq 1 
human_mito_cds.fasta out.compseq
13 Выровнять кодирующие последовательности соответственно выравниванию белков - их продуктов
 tranalign cdss_D-ddeI.fasta proteins_D-DdeI.fasta fasta::out.fasta
cdss_D-ddeI.fasta
proteins_D-DdeI.fasta
out.fasta

2.Сравнение геномов

2а. Я взяла два полных генома бактерий: Bacillus pumilus strain NJ-M2 и Bacillus subtilis subsp. subtilis str. 168 . Для них я построила выравнивание с помощью blast2seq. Параметры: программа BLASTN 2.5.1+; Word size 16; Expect value 10; Match/Mismatch scores 2,-3; Gapcosts 5,2. На рис.1 карта выравнивания. Параметры выравнивания:

Max scoreTotal scoreQuery coverE-valueIdent
245251.710e+06 53% 0.079%


Рис.1. Карта выравнивания.

На рис.2 я обозначила основные эволюционные события. Их было немного. При первом взгляде на карту выравнивания может показаться, что имеет место транслокация. Однако, так как хромосомы кольцевые, это нельзя считать верным. Видно, что выровнялись прямая цепь BACPU и обратная BACSU, однако это не имеет значения, так как понятия прямой и обратной цепи условны. Остальные события - это вставки в геноме BACPU (либо делеции в BACSU) под цифрами 1, 2, 3, 5, 6 в красной рамке, и вставка в геноме BACSU (либо делеция в BACPU) под цифрой 4 в красной рамке. В синей рамке расположено нечто, что я интерпретировала как транслокацию с последовавшей делецией в BACSU.


Рис.2. Карта выравнивания с отмеченными эволюционными событиями.

Номер вставки/делеции1(bacpu)2(bacpu)3(bacpu) 4(bacsu)5(bacpu)6(bacpu)
Координаты вставки/делеции (приблизительно)1300000:13500001450000:1550000 2600000:26500002100000:23000002800000:28700003000000:3050000

Я вырезала эти фрагменты из соотв. геномов и поискала их гомологи c помощью megablast в Nucleotide Collection. Это было сделано для того чтобы выяснить, вставка это или делеция, и если вставка, то откуда. События 1, 2, 3, 5, 6 я бы назвала делециями в геноме BACSU. А номер 4, по моему, это вставка в BACSU. На рис.3 распределение находок для №4.


Рис.3. Распределение находок к фрагменту генома BACSU.

Почти все находки относятся к разным штаммам BACSU, однако можно заметить, что большое кол-во находок выровнилось только на первых 50000 нуклеотидах фрагмента. Тем временем, есть одна находка Bacteriophage SPBc2, которая занимает почти всю остальную часть вырезанного фрагмента (Ident=99%). Таким образом, можно предположить, что здесь имела место вставка в геном BACSU из генома Bacteriophage SPBc2 (который специализируется на бактериях рода Bacillus).


© Герасева Е.П. 2015