Построение множественного выравнивания. Pfam

Перед началом выполнения задания необходимо было найти 7-8 гомологов исходного белка. Для составления списка я использовала алгоритм protein blast на сайте BLAST, исключив из поиска род Neisseria, так как у белков этого рода слишком высок процент идентичности с исходным. Необходимыми условиями выборки были:

  • Высокое значение параметра coverage, 70-90%
  • ID на уровне 50-60%
  • E-value < 1e-5

Поиск семейства гомологов данного белка проводился по безе даных RefSeq. Выбранные мною белки занесены в таблицу 1. Их последовательности в формате fasta - здесь.

Таблица 1. Белки, гомологичные исходному
Description Max score Total score Query cover E value Ident Accession
cystine transporter subunit [Gallibacterium anatis UMN179] >ref|WP_013746690.1| amino acid ABC transporter substrate-binding protein [Gallibacterium anatis] 355 355 100% 1e-119 62% YP_004420820.1
amino acid ABC transporter substrate-binding protein [Avibacterium paragallinarum] 352 352 98% 2e-118 61% WP_017806670.1
hypothetical protein PARA_05030 [Haemophilus parainfluenzae T3T1] >ref|WP_014064400.1| amino acid ABC transporter substrate-binding protein [Haemophilus parainfluenzae] 342 342 97% 2e-114 61% YP_004822203.1
amino acid ABC transporter substrate-binding protein [Pasteurella pneumotropica] 347 347 97% 2e-116 61% WP_018356805.1
hypothetical protein [Acinetobacter gerneri] 370 370 100% 3e-125 61% WP_004863673.1
ABC transporter substrate-binding protein [Clostridium lentocellum DSM 5427] >ref|WP_013655917.1| amino acid ABC transporter substrate-binding protein [Cellulosilyticum lentocellum] 341 341 100% 7e-114 59% YP_004307814.1
amino acid ABC transporter substrate-binding protein [Pelosinus fermentans] 336 336 100% 5e-112 58% WP_007960750.1

Далее при помощи программы muscle на сервере kodomo было построено множественное выравнивание этих белков. Для этого использовалась команда

muscle -in homologus.fasta -out muscle.fasta

Затем при помощи программы mafft на сервере kodomo было построено еще одно выравнивание этих белков. Использовалась команда

mafft homologus.fasta > mafft.fasta

Сравнение выравниваний

Сравнение проводилось двумя способами. Первый - совмещение выравниваний в одном окне. К выравниванию muscle я добавила гэпы, чтобы совместить начальный и конечный участки. На рис.1. представлен участок совмещения выравниваний.


Рис.1. Фрагмент совмещения выравниваний, сделанного вручную

Как видно из рис.1, выравнивания расходятся га участке с 25 по 43 аминокислотный остаток (всего 18 позиций, в выравнивание muscle добавлено по 2 гэпа). В остальном, выравнивания идентичны.

Второй способ сравнения - использование программы muscle для двух выравниваний. Использованная команда:

muscle -profile -in1 muscle.fasta -in2 mafft.fasta -out muscle_comparement.fasta

Фрагмент полученного совмещения показан на рис.2.


Рис.1. Фрагмент совмещения выравниваний, сделанного программой muscle

Как видно из рис.2, выравнивания не совпадают с 25 по 44 аминокислотный остаток (19 позиций). В выравнивание muscle программна также добавила гэпы. Длины участков получились разные из-за разных способов вставить гэпы.

Получается, в даном случае выравнивание определяется программой, которая его делала. Однако, различными получились только те кусочки, где гомология последовательностей сомнительна и непонятно, что с чем выравнивать.

Посмотреть на все упомянутые в тексте выранивания можно здесь.

Pfam

При помощи сервиса Pfam был произведен поиск Pfam-семейств, встречающихся в исходной последовательности. Нашлось 1 Pfam-A семейство. его выравнивание приведено на рис.3.


Рис.1. Pfam-A, выравнивание
© Маслова Валентина, 2014
Последнее изменение: 18.05.2014