Учебный сайт Алены Корягиной

Построение множественного выравнивания последовательностей, гомологичных белку АТФазы VirB4. Pfam

С помощью алгоритма BLASTР на сайте NCBI была собрана выборка из белков гомологичных белку VirB4 АТФАазы из бактерии Thermoanaerobacter pseudethanolicus. Поиск проводился в базе данных refseq. Из 100 найденных были выбраны 7 белков со следующими идентификаторами: YP_003824832.1, WP_013275259.1, WP_005552671.1, WP_019123862.1, WP_001151310.1, WP_001151309.1, YP_004870133.1, WP_006354149.1.

Используя программы с сервера kodomo, были построены множественные выравнивания отобранных последовательностей и первоначального белка. Первая программа — muscle. Для ее вызова вводилась команда:

muscle -in sequences.fasta -out alignment_muscle.fasta

Вторая программа — mafft, для вызова которой была введена команда:

mafft sequences.fasta > alignment_mafft.fasta

Далее было проведено сравнение двух полученных выравниваний. Для этого выранивания были совмещены и выравнены друг относительно друга (рис.1.). Выравнивания обрабатывались в редакторе Jalview, для каждого были выбраны раскраска Clustalx и консервативность >70%. Первые восемь последовательностей соответствуют выравниванию с помощью программы muscle (далее просто первое выравнивание), следующие восемь (далее второе выравнивание).

Первое на что можно обратить внимание это порядок последовательностей: во втором выравнивании порядок соответствует поданному на вход, а в первом — последовательности перемешаны. Причины изменения порядка последовательностей программой muscle мне неизвестны. В общем можно сказать, что выравнивания очень консервативны и практически идентичны за исключением четырех небольших участков, выделенных красной рамочкой на рисунке 3. Первый участок занимает первые 15 позиций. Второй участок расположен с 333 позиции до 347, а третий с 416 позиции до 442. Во втором выравнивании на этом участке имеется 1 дополнительный гэп в каждой последовательности по сравнению с первым выравниванием, из-за этого, для того чтобы совместить последующие консервативные позиции двух выравниваний, вручную были добавлены гэпы в первое выравнивание. Четвертый участок занимает последние 7 позиций (с 640 по 646). Таким образом, выравнивания абсолютно идентичны на следующих позициях: 16-332, 347-415, 443-639. По моему мнению, подобные различия в выравниваниях не существенны.

Рис.1. Сравнение двух выравниваний. Первое выравнивание получено с помощью программы muscle, второе - с помощью mafft. Красными рамочками выделены участки, на которых выравнивания различны. Рисунок получен с помощью Jalview.

Так же с помощью базы данных семейств белков Pfam было выяснено, что исходный белок (белок VirB4 АТФазы) содержит домен, расположеннный с 237 по 533 позицию, семейства ААА_10. ААА_10 — семейство белков АТФазы, связанных с различной клеточной активностью. Члены семейства AAA можно найти во многих организмах и они имеют важное значение для многих клеточных функций. Они участвуют в таких процессах, как репликация ДНК, деградация белков, слияние мембран, разрыв микротрубочек, передача сигнала и регуляция экспрессии генов [1]. Для данного семейства было сохранено seed выравнивание, которое вы можете увидеть на рисунке 2.

Рис.1. Seed выравнивание семейства ААА. Рисунок получен с помощью Jalview.

К данной работе вы можете скачать:

  • fasta-файл с последовательностями выборки;
  • fasta-файл с множественным выравниванием, полученным с помощью программы muscle;
  • fasta-файл с множественным выравниванием, полученным с помощью программы mafft;
  • fasta-файл с seed выравниванием семейства AAA;
  • общий прoект в формате jar.

Источники:

[1] http://pfam.xfam.org/family/PF12846.2

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 27.05.2014