Построение парных выравниваний. Поиск по сходству

Исходные данные

  • белок археи Methanosarcina acetivorans C2A с идентификатором NP_616587.1
  • Выборка гомологов при помощи программы BLASTP из базы Refseq

    На сайте NCBI была запущена программа BLASTP.
  • Параметры поиска
  • По запросу с настройками по умолчанию было найдено около 2000 результатов, поэтому поиск был ограничен по таксону Euryarchaeota. Число находок - 283. Из них гомологичных по всей длине (query cover > 80%) - 50.

    Таблица 1. Основная информация о находках
    Название белка Sequence ID: Длина bit score % идентичных остатков % сходных остатков E-value
    Лучшая находка ferredoxin: glutaredoxin reductase WP_048065175.1 172 348 bits(894) 99 100 9e-124
    Худшая находка rubrerythrin WP_013867741.1 30 30.0 bits(66) 40 53 9.7
    Находка из середины списка FtrB WP_048135859.1 80 69.7 bits(169) 38 55 5e-15

    Если считать гомологом целой исходной последовательности такую последовательность, у которой при парном выравнивании E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание, то таковой можно считать лишь одну последовательность, из приведенных выше в таблице ("Лучшая находка"). Из всех результатов поиска таких последовательностей 51.

    Множественное выравнивание последовательностей из полученной выборки

    Была сохранена выборка из 25 последовательностей гомологов и построено выравнивание этих последовательностей с исходной с помощью программы Muscle в JalView. Последовательнсти расположены в порядке уменьшения их веса (исходная последовательность - первая в выравнивании), последняя последовательность имеет E-value 1e-06.

    Первые 11 последовательностей очень схожи между собой (E-value < 1e-53), в связи с чем у них много абсолютно консервативных или абсолютно функционально консервативных колонок. Среди них найдено 5 больших блоков. Однако и для всего выравнивания есть вертикальные блоки (они обозначены "B").

    На N и C-концах присутствуют длинные невыровненные участки, различные у разных находок. В первую очередь это связано с различием в длине последовательностей. У первых 11-ти последовательностей длина примерно одинаковая, поэтому на концах у них можно обнаружить блоки. У остальных последовательностей длина гораздо короче, и на этих участках стоят гепы.

    Рис. 1. Выравнивание 25 гомологов с исходной последовательностью (раскраска BLOSUM62, порог по консервативности 30%)

    Построение парных выравниваний

    Парное выравнивание - выравнивание двух последовательностей. Различают глобальное и локальное парные выравнивания. Для их построения применяются алгоритмы Нилдмана-Вунша и Смита-Ватермана соответственно.

    Парные выравнивания были построены для исходной и наихудшей последовательности из выборки(WP_048198866.1) с использованием консольных программ water и needle на kodomo. Кроме того, было выделено глобальное выравнивание путем удаления лишних строк из множественного, а также получено локальное выравнивание, выданное BLAST.

    Таким образом, всего было построено 4 выравнивания:

  • глобальное (выданное needle)
  • глобальное (полученное из множественного)
  • локальное (выданное water)
  • локальное (выданное BLAST)
  • В такой последовательности они представлены на рис.2 (выравнивания выровнены между собой).

    Рис. 2. Парные выравнивания исходной и наихудшей последовательности из выборки

    Участок, найденный программами BLAST и WATER (3 и 4 группы) совпадает не поностью. В коордиинатах 74-84 мало консервативных колонок, в связи с чем выравнивания сильно различаются. Выравнивания WATER и NEEDLE наиболее похожи, за исключением отстутствия выравнивания на N- и C- концах в локальном выравнивании. Следовательно, можно с высокой выроятностью считать, что на этом учатке последовательны гомологичны друг другу.

    Однако в выравниваниях есть учаcтки, сильно различающиеся в зависимости от типа выравнивания. Один из таких участков приведен на рис. 3.

    Рис. 3. Участок выравнивания

    Длина этого участка - 10 а.о. Сильное различие при использовании разных выравниваний свидетельствует о том, что скорее всего этот участок не является гомологичным.



    Парные выравнивания последовательностей двух заведомо негомологичных белков

    Выравнивание было построено для белков с идентификаторами NP_616587.1(исходный белок) и WP_006485075.1.

    Данные о белке WP_006485075.1 представлены в таблице:

    Параметр Значение
    Идентификатор белка WP_006485075.1(ранее YP_002231040)
    Идентификатор GI 493531071
    Идентификатор генома NC_011000.1
    Координаты гена в геноме 2110352..2111128
    Длина гена (п. н.) 777
    Цепь обратная
    Длина белка (а. о.) 258


    Рис. 4. Участок выравнивания water(сверху) и needle (снизу) для заведомо негомологичных белков

    Как следует из рис.4, алгоритмы выравниваний water и needle различны. needle предпологает, что последовательности гомологичны по всей длине, поэтому выровнялись конец первой последовательности и начало второй. water же сделал выравниваие определенного учаcтка, который в обеих последовательностях изначально находился примерно посередине. На рисунке выравнивание water перемещено вправо, до совмещения с этим участком в выравнивании needle.

    Отсюда можно делать вывод о том, что для заведомо негомологичных последовательностей выравнивание needle не имеет никакого смысла, в то время как water может нести долю истины о наличии гомологичного участка.

    Ссылки:

  • Проект JalView

  • © Васильева Елена, 2015