Лого сайта
Множественное выравнивание

Создание репрезентативной выборки.

Алгоритм создания выборки:
  1. Определяется таксоноспецифичность работы алгоритма BLAST, в частности исключается родной филум Firmicutes, т.к. очевидно что именно в нем изучаемы белок будет слишком хорошо представлен, в результате чего репрезентативности выборки может не быть как таковой, т.к. фактически выборка слишком зашумлена данными из этого филума на фоне других.
  2. Определение оптимальных параметров для работы алгорима, а именно: колличество хитов, e-value и на самом деле уровень покрытия, но т.к. на прямую ограничение по нему не задать, то о будет косвенно учтен при задании лимитирующего e-value
  3. Осмысленное повторение пунктов 1 и 2 для случая эукариотичной выборки
Результатом такого подхода служит Таблица 1.

Таблица 1.

ПоискАлгоритм BLASTНазвание базы данныхОграничения по таксонамПорог e-valueМаксимальное количество хитовРеальное количество хитов
По прокариотамBLASTPRefseq не влкючать Firmicutes
не включать Eukaryota
7e-24 50001361
По эукариотамBLASTPRefseqвключать Eukaryota1e-710038
Далее путем ручной обработки данных сделаем таксоноспецифичную выборку. Данные этой выборки представлены в Таблице 2.
Дополнительно, в виду весьма большого к-ва дынных был задействован сервис NCBI Batch Entrez.

Таблица 2 Выборка гомологов.

Домен Филум/Царство Название организма Количество белков
Archaea Не найдено
Bacteria Acidobacteriales Granulicella tundricola MP5ACTX9 5
Aquificae Mesorhizobium loti MAFF303099 12
Deferribacterales Flexistipes sinusarabici DSM 4947 4
fusobacteria Fusobacterium ulcerans ATCC 49185 5
green sulfur bacteria Chloroherpeton thalassium ATCC 35110 12
proteobacteria
Yersinia enterocolitica subsp. enterocolitica 8081
Thalassolituus oleivorans MIL-1
Escherichia coli KTE4
Salmonella enterica subsp. enterica serovar Gallinarum str. 287/91
Wolbachia endosymbiont of Drosophila simulans wNo
Labrenzia alexandrii DFL-11
Octadecabacter antarcticus 307
Octadecabacter arcticus 238
Herbaspirillum frisingense GSF30
Taylorella asinigenitalis 14/45
Candidatus Burkholderia kirkii UZHbot1
Azoarcus sp. KH32C
Helicobacter heilmannii ASB1.4
Helicobacter pylori OK310
Helicobacter pylori CCHI 33
Helicobacter pylori CPY1662
Desulfotignum phosphitoxidans DSM 13687
Desulfovibrio africanus PCS
Desulfocapsa sulfexigens DSM 10523
1164
Eukaryotes apicomplexans Plasmodium cynomolgi strain B 9
green plants Ostreococcus tauri 9

Таким образом были отобраны 26 белковых последовательностей (список gi). Их таксономия более наглядно представленна на иллюстрации 1.

Иллюстрация 1. Дерево взаимоотношений отобранных гомологов.

В результате выполнения отбора гомологов получен FASTA файл содержащий 26 гомологов и исходный белок и FASTA файл подготовленый для проведения множественного выравнивания.

Множественное выравнивание

Было проведено множественное выравнивание 26 гомологов и самого белка CLPQ_BACSU программой muscle при стандартных настройках.

Тут и далее в работе будет применена следующая цветовая схема выравнивания:
Минимальная ("нейтральная") аминокислота: бирюзовый
Полярные незаряженные аминокислоты:светло-коричневый
Отрицательно заряженные аминокислоты: синим
Положительно заряженные аминокислоты: красным
Ароматические аминокислоты: малиновым
Серусодержащие аминокислоты: желтым
Алифатические аминокислоты: темно-зеленым

Илллюстрация 2. Множественное выравнивание без обработки.


После этого была проведена некоторая визуализация выравнивания: цветовую обработку имеют только те участки, идентичность в которых превышает 55%

Илллюстрация 3. Множественное выравнивание с небольшой обработкой.


Просе этого выравнивание было дополнено указанием дополнительной информации о структуре и функциях:
  1. поле structure :альфа спирали обозначены красным, бета листы обозначены зеленым
  2. поле ligand: сами места связывания с лигандом обозначены L
  3. поле BLOCKS: символом B обозначены гомологичные блоки
  4. поле Conservation и поле Consensus: показывают консервативность позиции белка.

Выравнивание с этой обработкой явно показывает очень сильную гомологию, особенно в зоне BLOCKS.

Илллюстрация 4. Множественное выравнивание после обработки.

Результат множественного выравнивания

В целом выравнивание получилось очень хорошее (Илюстрация 4.), т.к существует большое колличество консервативных участков на протяжении всего выравнивания.

Многие консервативные участки по положению совпадают с некоторыми элекментами вторичной структуры, а именно с альфаспиралями. Особо сильных совпадений же по бета-листам не наблюдается. Это связано с фунцкциональной важностью вторичной структуры и, как следствие, из-за этого и происходит консервативность.

Особо плохих участков в выравнивании не наблюдается, в в иду хорошей подготовки выборки.

В основном, "колонки-гэпы" не встречаюстя в местах, формирующих вторичную структуру. За исключением бета-листов, что никоем образом не отражается функционально, т.к. в целом для белка не важно будет ли бета-лист чуть длинее или короче.
Это хорошо проглядывается на изображении трехмерной структуры белка, где окрашивание повторяет окрашивание множественного выравнивания ( Иллюстрация 5.)

Илллюстрация 5. Белок CLPQ_BACSU. Модель, раскрашивание идентично такому в множественном выравнивании, желтым обозначен консервативный участок связвывания лиганда.


Выборка блоков была проведена на основе стабильных консервативных участнов, судя по выравниванию, они в основном совпадают с форменными элементами вторичной структуры.
Консервативность участков, связывающих лиганды сильно высока: два из трех (Cys167 и Thr170) вообще не меняются на протяжении всей выборки, а у теретего остатка происходит смена Ala<->Gly, что по сути практически никак не влияет на связывание лиганда.
Вывод: Очевидно, при такой степени консервативности можно с легостью рассуждать, что на основе данного множественного выравнивания можно строить фукнциональные предсказания для других белков.