Построение парных выравниваний.
Поиск по сходству
Исходные данные
белок археи Methanosarcina acetivorans C2A с идентификатором NP_616587.1
Выборка гомологов при помощи программы BLASTP из базы Refseq
На сайте
NCBI была запущена программа BLASTP.
Параметры поиска
По запросу с настройками по умолчанию было найдено около 2000 результатов, поэтому поиск был ограничен по таксону Euryarchaeota.
Число находок - 283. Из них гомологичных по всей длине (query cover > 80%) - 50.
Таблица 1. Основная информация о находках
|
Название белка |
Sequence ID: |
Длина |
bit score |
% идентичных остатков |
% сходных остатков |
E-value |
Лучшая находка |
ferredoxin: glutaredoxin reductase |
WP_048065175.1 |
172 |
348 bits(894) |
99 |
100 |
9e-124 |
Худшая находка |
rubrerythrin |
WP_013867741.1 |
30 |
30.0 bits(66) |
40 |
53 |
9.7 |
Находка из середины списка |
FtrB |
WP_048135859.1 |
80 |
69.7 bits(169) |
38 |
55 |
5e-15 |
Если считать гомологом целой исходной последовательности такую последовательность, у которой при парном выравнивании
E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание, то таковой можно считать лишь одну последовательность,
из приведенных выше в таблице ("Лучшая находка").
Из всех результатов поиска таких последовательностей 51.
Множественное выравнивание последовательностей из полученной выборки
Была сохранена выборка из 25 последовательностей гомологов и построено выравнивание этих последовательностей с исходной с помощью программы Muscle
в JalView. Последовательнсти расположены в порядке уменьшения их веса (исходная последовательность - первая в выравнивании), последняя последовательность
имеет E-value 1e-06.
Первые 11 последовательностей
очень схожи между собой (E-value < 1e-53), в связи с чем у них много абсолютно консервативных или абсолютно функционально консервативных колонок.
Среди них найдено 5 больших блоков. Однако и для всего выравнивания есть вертикальные блоки (они обозначены "B").
На N и C-концах присутствуют длинные невыровненные участки, различные у разных находок. В первую очередь это связано с различием в длине
последовательностей. У первых 11-ти последовательностей длина примерно одинаковая, поэтому на концах у них можно обнаружить блоки. У остальных
последовательностей длина гораздо короче, и на этих участках стоят гепы.
 |
Рис. 1. Выравнивание 25 гомологов с исходной последовательностью (раскраска BLOSUM62, порог по консервативности 30%)
| |
Построение парных выравниваний
Парное выравнивание - выравнивание двух последовательностей. Различают глобальное и локальное парные выравнивания. Для их
построения применяются алгоритмы Нилдмана-Вунша и Смита-Ватермана соответственно.
Парные выравнивания были построены для исходной и наихудшей последовательности из выборки(WP_048198866.1) с использованием
консольных программ water и needle на kodomo. Кроме того, было выделено глобальное выравнивание путем удаления лишних строк из множественного,
а также получено локальное выравнивание, выданное BLAST.
Таким образом, всего было построено 4 выравнивания:
глобальное (выданное needle)
глобальное (полученное из множественного)
локальное (выданное water)
локальное (выданное BLAST)
В такой последовательности они представлены на рис.2 (выравнивания выровнены между собой).
 |
Рис. 2. Парные выравнивания исходной и наихудшей последовательности из выборки
| |
Участок, найденный программами BLAST и WATER (3 и 4 группы) совпадает не поностью. В коордиинатах 74-84 мало консервативных колонок,
в связи с чем выравнивания сильно различаются.
Выравнивания WATER и NEEDLE наиболее похожи, за исключением отстутствия выравнивания на N- и C- концах в локальном выравнивании.
Следовательно, можно с высокой выроятностью считать, что на этом учатке последовательны гомологичны друг другу.
Однако в выравниваниях есть учаcтки, сильно различающиеся в зависимости от типа выравнивания. Один из таких участков приведен на рис. 3.
 |
Рис. 3. Участок выравнивания
| |
Длина этого участка - 10 а.о. Сильное различие при использовании разных выравниваний свидетельствует о том, что скорее всего этот участок
не является гомологичным.
Парные выравнивания последовательностей двух заведомо негомологичных белков
Выравнивание было построено для белков с идентификаторами NP_616587.1(исходный белок) и WP_006485075.1.
Данные о белке WP_006485075.1 представлены в таблице:
Параметр | Значение |
Идентификатор белка | WP_006485075.1(ранее YP_002231040) |
Идентификатор GI | 493531071 |
Идентификатор генома | NC_011000.1 |
Координаты гена в геноме | 2110352..2111128 |
Длина гена (п. н.) | 777 |
Цепь | обратная |
Длина белка (а. о.) | 258 |
 |
Рис. 4. Участок выравнивания water(сверху) и needle (снизу) для заведомо негомологичных белков
| |
Как следует из рис.4, алгоритмы выравниваний water и needle различны. needle предпологает, что последовательности гомологичны по всей
длине, поэтому выровнялись конец первой последовательности и начало второй. water же сделал выравниваие определенного учаcтка, который в обеих
последовательностях изначально находился примерно посередине. На рисунке выравнивание water перемещено вправо, до совмещения с этим участком в выравнивании needle.
Отсюда можно делать вывод о том, что для заведомо негомологичных последовательностей выравнивание needle не имеет никакого смысла,
в то время как water может нести долю истины о наличии гомологичного участка.
Ссылки:
Проект JalView