EMBOSS. Выравнивание геномов.
Упражнения EMBOSS
- (seqret) Несколько файлов в формате fasta собрать в единый файл.
Были использованы файлы HSP7C_HUMAN.fasta, TERT_HUMAN.fasta и CISY_HUMAN.fasta из предыдущего практикума.
В этом случае было удобно собрать файлы по маске.
Использованная команда: seqret "*_HUMAN.fasta" HUMAN.fasta
Выходной файл: HUMAN.fasta
- (seqretsplit) Один файл в формате fasta с несколькими
последовательностями разделить на отдельные fasta файлы
Был взят файл HUMAN.fasta из предыдущего задания.
Использованная команда: seqretsplit HUMAN.fasta
Выходные файлы: p11142.1.fasta, o14746.1.fasta, o75390.2.fasta - (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности
по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Я взяла последовательность полного генома Streptococcus suis GZ1. (файл CP000837.1) и выбрала отттуда три кодирующих послдовательности. Для этого сначала был создан список с USA интересующих нас участков с указанием координат и, где требовалось, ориентации "r". Затем выбранные фрагменты последовательности были объединены в один fasta-файл.
Использованные команды:
echo -e "gb::genbank:CP000837[1528:2664]\ngb::genbank:CP000837[3647:3850]\ngb::genbank:CP000837 [57196:58134:r]">cds.list
seqret @cds.list fasta:cds.fasta
Выходной файл: cds.fasta - (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные,
используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Полученные в предыдущем задании кодирующие последовательности были транслированы в последовательности аминокислот с использованием стандартной таблицы генетического кода (параметр -table 0, стоит по умолчанию). Стоит заметить, что все они начинались стартовым кодоном, который был транслирован в метионин, и заканчивались стоп-кодоном, который в выходном файле обозначен "*". На выходе было получено столько же последовательностей, сколько было во входном файле.
Использованная команда: transeq -table 0 cds.fasta proteins.fasta
Выходной файл: proteins.fasta
- (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
Чтобы транслировать последовательность в шести рамках, необходимо было добавить опцию -frame 6. В выходном файле оказалось 18 последовательностей (каждая из трех исходных последовательностей была транслирована в 6 рамках, из которых 3 прямых и 3 обратных).
Использованная команда: transeq -frame 6 cds.fasta proteins6.fasta
Выходной файл: proteins6.fasta
- (seqret) Перевести выравнивание из fasta формата в формат .msf
Исходный файл - alignment.fasta. После перевода в msf формат получен файл alignment.msf, в котором, в отличие от исходного fasta файла, приведено выравнивание всех последовательностей вместе, а не по отдельности, а также содержится дополнительная информация о последовательностях.
Использованная команда: seqret alignment.fasta msf::alignment.msf
Выходной файл: alignment.msf
- (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми
остальными (на выходе только имя последовательности и число).
Infoalign выдает различную информацию о последовательностях во входном множественном выравнивании (USA, имя, длину, количество гэпов, совпадений и пр.) в сравнении с эталонной последовательностью. По умолчанию эталонной последовательностью является вычисленная консенсусная последовательность, но ее можно задать и вручную по имени или порядковому номеру в файле. Нам необходимо было провести сравнение со второй последовательностью, поэтому была использована опция -refseq 2. Чтобы получить на выходе только имя и информацию о количестве совпадений были использованы опции -only -name -idcount.
Использованная команда: infoalign alignment.msf -refseq 2 -only -name -idcount stdout
- (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
Featcopy читает таблицы особенностей и переводит их в любой из поддерживаемых форматов. Исходный файл - sequence.gb.
Использованная команда: featcopy sequence.gb sequence.gff
Выходной файл: sequence.gff
- (extractfeat) Из данного файла в формате .gb получить fasta файл с кодирующими
последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
Extractfeature предназначена для извлечения участков последовательности, аннотированных какой-дибо особенностью (-type). Участки с одной и той же особенностью могут быть извлечены как отдельные последовательности или сцеплены вместе, если используется опция -join. Нам необходимо было получить файл с кодирующими последовательностями, поэтому команда была запущена с опцией -type CDS. Чтобы добавить в описание функцию белка была также использована опция -describe. Исходный файл - sequence.gb
Использованная команда: extractfeat sequence.gb -type CDS -describe product coding.fasta
Выходной файл: coding.fasta
- (shuffle) Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных"
находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)
Shuffle прочитывает одну или несколько последовательностей и случайным образом перемешивает их. Число перемешиваний может быть задано. Чтобы результат выводился в файл, необходимо использовать опцию -о. Для работы был взят файл cds.fasta.
Использованная команда: shuffle -o shuffled.fasta cds.fasta
Выходной файл: shuffled.fasta
Для выходного файла был запущен blastn с параметрами по умолчанию. "Достоверных" находок (с E-value < 0.1) не нашлось ни одной. Выдачу blastn можно увидеть на рисунке.
- (cusp)Найдите частоты кодонов в данных кодирующих последовательностях.
Cusp высчитывает таблицу использования кодонов для одной или более нуклеотидных последовательностей. В данной таблице для каждого кодона указано: последовательность кодона, закодированная аминокислота, частота данного кодона по отношению к остальным, кодирующим ту же аминокислоту (fraction), частота кодона в данной последовательности (frequency), число кодонов данного типа в последовательности.
Для работы был взят файл cds.fasta.
Использованная команда: cusp cds.fasta frequency.cusp
Выходной файл: frequency.cusp
- (compseq) Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с
ожидаемыми
Compseq производит подсчет состава слов указанной длины во входной последовательности. В выходной файл записывается само слово, сколько раз оно встречается, его наблюдаемая частота встречаемости (Obs Frequency), предполагаемая частота (Exp Frequency), а также соотношение этих частот (Obs/Exp Frequency). Чтобы найти наблюдаемые и ожидаемые частоты динуклеотидов необходимо запустить данную команду для слов длины 2 (опция -word 2). Для более точного подсчета ожидаемых частот можно использовать опцию -calcfreq, при активировании которой данный подсчет ведется на основании частот встречаемости отдельных оснований в данной последовательности (если опция выключена, то частоты всех оснований считаются равными, что не является верным). Исходный файл - cds.fasta.
Использованная команда: compseq -word 2 -calcfreq cds.fasta cds.compseq
Выходной файл: cds.compseq
Практически для всех динуклетидов наблюдаемая частота встречаемости не особо отличается от ожидаемой, соотношение Obs/Exp Frequency для всех, кроме двух динуклеотидов, отклоняется от единицы не более, чем на 0,2. Для динуклеотидов CG и TA оно составляет 0.7695578 и 0.7000311 соответственно. Это значит, что данные динуклеотиды встречаются в последовательности несколько реже, чем было предсказано.
- (tranalign)Выровняйте кодирующие последовательности соответственно выравниванию белков - их
продуктов
Tranalign принимает на вход набор из невыровненных нуклеотидных последовательностей и соответсвующий им набор выровненных транслированных с них белковых последовательностей. В выходной файл записывается выравнивание нуклеотидных последовательностей. Каждая нуклеотидная последовательность транслируется во всех трех прямых рамках по указанному генетическому коду и трансляции сравниваются с соответсвующими во входном выравнивании. Важно, чтобы соответствующие друг друг последовательности во входных файлах располагались в одном порядке. Для работы были взяты следующие файлы: nuc.fasta - невыровненные нуклеотидные последовательности, pep.fasta - выровненные белковые последовательности.
Использованная команда: tranalign nuc.fasta pep.fasta nucalign.fasta
Выходной файл: nucalign.fasta
Выравнивание геномов
Построение карты локального сходства
Для выполнения задания были взяты бактерии Yersinia pestis Nepal516 и
Yersinia pestis Antiqua. Это патогенные бактерии,
вызывающие чуму.
С помощью blast2seq было построено выравнивание и получена карта локального сходства для этих двух штаммов.
Карта локального сходства Yersinia pestis Nepal516 (OX) и Yersinia pestis Antiqua (OY) |
---|
Анализ полученнной карты
Данная карта (dot matrix view) показывает участки сходства на основании результатов работы BLAST. Выравнивания показаны в виде непрерывных линий. Совпадения прямой цепи (plus strand) отображены линиями, идущими из левого нижнего в правый верхний угол, совпадения комплементарной цепи (minus strand) - из левого верхнего в правый нижний. Количество линий соответсвует количеству найденных BLAST выравниваний.
Последовательность на оси OY (Query) имеет длину 4702289, полседовательность на оси OX (Reference) - 4534590. Минимальная цена деления на осях составляет 50000.
Cходство (Identity %) между гомологичными участками в данном выравнивании - 99% (было найдено как среднее сходство по нескольким наиболее длинным выравниваниям).
Синтеничные области | |
---|---|
Синтеничные области - участки геномов, состоящие из ортологичных областей с сохранением их порядка на хромосоме для сравниваемых геномов. Наиболее крупные синтеничные области для геномов Yersinia pestis Nepal516 (OX) и Yersinia pestis Antiqua (OY) подчеркнуты зеленым. |
Наиболее крупные эволюционные события | |
---|---|
Рис. 1 Красным выделены инверсии. | |
Рис. 2 Желтым выделены вставки в Query | |
Рис. 3 В выделенной голубым области вероятно произошла транслокация. Наблюдается перестановка порядка участков - AB в одном геноме, BA - в другом. |
Построение нуклеотидного пангенома
Чтобы построить нуклеотидный пангеном, я использовала программу NPG explorer на сервере kodomo.
В домашней директории была создана специальная папка ann_karpukhina@kodomo:~/term3/block2/pr9/npg1.
В ней я создала файл genomes.tsv, содержащий адреса последовательностей геномных ДНК для выбранных мной
штаммов бактерий:
Yersinia pestis Java9, Yersinia pestis Nairobi и Yersinia pestis Shasta.
Затем я запустила команду npge Prepare, чтобы скачать и переименовать геномные ДНК. В результате были
получены файлы: genomes-raw.fasta с исходными последовательностями,
genomes-renamed.fasta с переименованными
последовательностями, features.embl с особенностями (features) выбранных организмов и
genes/features.bs.
с блоками генов. Файлы genomes-raw.fasta и features.embl содержат необработанную входную информацию и на
последующих этапах не используются, поэтому их можно удалить.
С помощью команды npge Examine была проведена оценка сходства геномов и создан файл
identity_recommended.txt, на основании которого я определила
рекомендуемый для моих последовательностей параметр MIN_IDENTITY - 0.900.
Далее я создала файл с параметрами командой npge -g npge.conf и изменила в нем необходимые пункты
(WORKERS = 1 для kodomo; MIN_IDENTITY менять не пришлось, так как он совпал со значением по умолчанию).
Наконец была вызвана команада npge MakePangenome, которая создала файл pangenome.bs
- необходимый нам пангеном в формате BlockSet. Для дальнейшего анализа использовалась команда
npge PostProcessing, которая создала множество файлов с аналитической информацией о пангеноме.