EMBOSS.
Упражнения EMBOSS.
1. (seqret) Несколько файлов в формате fasta собрать в единый файл.
Команда: seqret "*_HUMAN.fasta" result.fasta
Для выполнения задания были использованы файлы: CISY_HUMAN.fasta; HSP7C_HUMAN.fasta; RPB1_HUMAN.fasta; PABP2_HUMAN.fasta; TERT_HUMAN.fasta.
2.(seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Команда: seqretsplit result.fasta
В качестве исходного файла взят result.fasta , полученный в результате предыдущего упражнения.
Полученны файлы: o14746.1.fasta ;o75390.2.fasta ; p11142.1.fasta ; p24928.2.fasta; q86u42.3.fasta.
3. (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
Команды: echo -e "gb::genbank:CP002686[4342:4818]\ngb::genbank:CP002686[6657:7772]\ngb::genbank:CP002686[58043:58690]">cds.list
seqret @cds.list fasta:cds.fasta
Полученный файл: cds.fasta
В качестве исходного файла была взята последовательность хромосомы 3 организма Arabidopsis thaliana ( Caenorhabditis elegans chromosome V), и из нее были выбраны 3 кодирующие последовательности. Для этого использовалась первая команда, которая создает список с USA нужных нам участков, для которых указаны координаты. Затем выбранные кодирующие последовательности были объединены в один fasta файл.
4. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Команда: transeq -table 0 cds.fasta amino.fasta
Использовался файл из предыдущего упражнения cds.fasta.
Полученный файл: amino.fasta
5.(transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
Команда: transeq -frame 6 cds.fasta nucl6.fasta
Использовался файл из 3 упражнения cds.fasta
Полученный файл: nucl6.fasta
Сравнение геномов
2а. Для двух геномов постройте карту локального сходства и опишите крупные эволюционные события на пути от общего предка.
Для карты локального сходства была выбрана бактерия Ruminiclostridium (Clostridium) thermocellum DSM 1313 из первого семестра и бактерия того же вида Clostridium thermocellum ATCC 27405. С помощью алгоритма blastn и blast2seq на сайте NCBI была построена карта локального сходства для выбранных бактерий.
По оси Х в качестве query отложена бактерия DSM 1313, по оси Y в качестве subject бактерия ATCC 27405.
Max score | Total score | Query cover | E-value | Ident | Identities |
2.975e+05 | 1.069e+07 | 96% | 0.0 | 99% | 155397/155702(99%) |
Предположим последовательности комплиментарны. Согласно карте локального сходства есть 1 крупное эволюционное событие - инверсия среднего куска ДНК. Она отмечена красным на рисунке.
Также на карте видны небольшие делеции/вставки в последовательностях. Они отмечены синим на рисунке.
Ссылки:
© Кузнецова Ксения, 2015