EMBOSS. Выравнивание геномов.

Задание 1

1. Несколько файлов в формате fasta собрать в один файл

Для этого список названий из файлов помещается в файл list, помещение файлов в один осуществляется с помощью команды seqret @list new.fasta

2. Один fasta-файл разделить на несколько

Возьмем файл new.fasta из предыдущего упражнения. Команда для его разделения:seqretsplit new.fasta. Данная команда выдаст новые файлы в формате название_последовательности.fasta.(1, 2, 3, 4

3. Из файла с хромосомой в формате .gbk вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

Возьмем геном герпеса (genbank:JN555585), создадим файл sequence, содержащий три CDS:

echo -e "genbank:JN555585[513:1259]\ngenbank:JN555585[9338:10012]\ngenbank:JN555585[10991..11665]">sequence

После чего получим последовательности:

seqret -sequence @sequence -outseq herpes.fasta

4. Транслировать несколько последовательностей в файле fasta в указанном генетическом коде.

Команда: transeq new.fasta -table 0 newp.fasta. Так как в задании не указан конкретный генетический код, то взят стандартный. Результат

5. Транслировать несколько последовательностей в шести рамках считывания:

transeq new.fasta -frame 6 newp6.fasta (newp6.fasta)

6. Перевести выравнивание из fasta-формата в msf-формат:

seqret -sequence align.fasta -outseq msf:align.msf (Исходник, Результат)

7. Вывести в stdout число совпадающих букв между второй последовательностью и всеми остальными (на выходе только ID и число)

infoalign -refseq 2 -only -name -idcount -sequence align.msf stdout

8. Перевести аннотацию особенностей из формата .gb в табличный формат .gff

featcopy -feature plasmid.gb -outfeat plasmid.gff (Исходник, Результат)

9.Из файла в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product).

extractfeat -type 'CDS' -describe 'product' -sequence plasmid.gb -outseq extracted.fasta (Исходник, Результат))

10. Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию).

shuffle extracted.fasta > random.fasta (Исходник, Результат)

Если взять первую последовательность из полученных случайных, то находится только 2 последовательности с e-value 4.9, т.е., находки однозначно недоставерны.

11. Найти частоты кодонов в данной кодирующей последовательности

cusp extracted.fasta extracted.cusp (Результат)

12. Найти частоты динуклеотидов с некоторой последовательности и сопоставить с ожидаемыми. Для этого взята первая последовательность из файла extracted.fasta

compseq -sequence ex1.fasta -calcfreq -word 2 -outfile ex1.compseq (Исходник, Результат)

Максимальные отклонения от ожидаемой частоты динуклеотидов наблюдаются у TA и TG, -35% и +40% отклонения от ожидаемой частоты соответственно.

13. Выровнять кодирующие последовательности соответственно выравниванию белков - их продуктов.

tranalign n.fasta p.fasta tranalign.fasta (Исходные последовательности нуклеотидов, Исходное выравнивание, Результат)

Задание 2

Для выполнения задания были взяты последовательности Escherichia fergusonii ATCC 35469 chromosome и Escherichia albertii DNA, complete genome, strain: EC06-170. Получившееся покрытие: 75%, сходство гомологичных участков: 94%.

Рис. 1. Матрица сходства для взятых геномов

В местах, отмеченных как 1, видно появление инвертированных повторов, 2 - инверсия. Отметка 4 более интересна - видно транслокацию, которая претерпела инверсию и дупликацию в одном из геномов.

Для уменьшения шума на матрице E-value было ограничено значением 1e-09 и размер слова был увеличен до 15.