BLAST

Поиск гипотетических гомологов оксалат-декарбоксилазы Bacillus subtilis с помощью BLAST

BLAST (Basic Local Alignment Search Tool) - программа, осуществляющая поиск участков локального сходства поданной на вход последовательности и последовательностей из выбранной базы данных. Для двух последовательностей ищется наилучшее локальное парное выравнивание, для чего рассчитывается критерий E-value, зависящий от веса выравнивания и длин последовательностей (подробнее о статистических критериях оценки выравниваний тут [EN]). Чем он ниже, тем "неслучайнее" получившееся выравнивание. Результаты по всем находкам выводятся в порядке увеличения E-value. Таким образом, по этому критерию возможно отбирать вероятно гомологичные заданной последовательности. Поиск был произведён для OXDC_BACSU (с помощью интерфейса BLAST на сервере NCBI) в трёх базах данных: Swissprot, PDB и nr(non-redundant protein sequences). Последняя представляет собой "объединение" всех банков последовательностей белков, по которым можно производить поиск c помощью BLAST, т.е. Swissprot и PDB в неё тоже входят. Результаты приведены в таблице 1.

Таблица 1. Результаты поиска гипотетических гомологов белка OXDC_BACSU
  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession O34714 1L3J_A NP_391204
E-value 0.0 0.0 0.0
Вес (в битах) 800 800 800
Процент идентичности 100% 100% 100%

2. Число находок
с E-value < 10–10

1 (не считая сам белок) 7 (не считая сам белок) 657

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 53 29 1318
Accession Q92UI1.1 3NE5_A ZP_21002137.1
E-value 0.90 0.75 0.99
Вес (в битах) 34.3 32.3 39.3
% идентичности 30% 31% 34%
% сходства 43% 52% 50%
Длина выравнивания 94 55 56
Координаты выравнивания (от-до, в запросе и в находке) q 249-331 s 59-152 q 88-139 s 534-585 q 88-143 s 44-98
Число гэпов n=2 l(sum)=11 n=2 L(sum)=6 n=1 L(sum)=1

4. Число выводимых находок

e-value последней находки 7.8 6.1 10.0*
Число находок 100 49 1497 (5000)*
q - координаты в запросе, s - координаты в находке. n - число гэпов, L(sum) - общая протяжённость всех гэпов в выравнивании.
*-размер выдачи изменён в настройках


Комментарии к таблице:


Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Для поиска гомологов были предложены следующие таксоны:

С целью найти гомолога в наиболее отдалённом таксоне в каждой из трёх баз данных проводился поиск по всем таксонам в порядке уменьшения ранга. Однако при предположении, что гомология начинается со значений E-value порядка 10-6 - 10-5, гомологи находятся во всех базах данных уже в эукариотах (табл.2)



Табл.2 Поиск предполагаемых гомологов в отдалённых таксонах
  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"
Таксон, в котором найден гомолог Eukaryota (Gossypium hirsutum) Eukaryota (Prunus Dulcis) Eukaryota (Beauveria bassiana)
Число подходящих последовательностей 11 1 352
Accession лучшего P09802.2 3EHK_A EJP69689.1
E-value лучшего 1e-07 7e-06 3e-151
Вес (в битах) 55.8 47.0 446
% идентичности 23% 29% 59%
% сходства 39% 50% 75%
Длина выравнивания 228 102 362
Координаты выравнивания (от-до, в запросе и в находке) q 9-202 s 276-496 q 95-194 s 410-470 q 2-361 s 68-429
Число гэпов n=5 L(sum)=41 n=2 L(sum)=2 n=2 L(sum)=2

Бласт двух последовательностей

С помощью BLAST было выполнено парное выравнивание OXDC_BACSU и найденного при поиске в базе nr гомолога с идентификатором WP_007417048 из Pedosphaera parvula (Verrucomicrobia)*** с двумя разными порогами e-value - 10 и 0.1. В первом случае BLAST выравнивает последовательности аж двумя способами, правда, второе выравнивание отсекается порогом e-value 0.1. Посмотреть выравнивания и их характеристики можно на рис. 1 и 2.



blast
Рис. 1 Выравнивание 1, с низким е-value

blast
Рис. 2 Выравнивание 2, с большим e-value

Кроме того, BLAST автоматически строит карту локального сходства - графическое представление выравнивания, показывающее, какие участки белков соотнесены с какими(по осям - номера аминокислотных остатков). Посмотреть графики можно на рисунках 3 и 4.


blast
Рис. 3 Карта локального сходства последовательностей при пороге е-value=10
blast
Рис. 4 Карта локального сходства последовательностей при пороге е-value=0.1

*** это не эукариотическая последовательность, а белок из другого бактериального филума. Выравнивать его в этом задании более рационально, т.к. не удалось найти эукариотических белков, для которых бы карты локального сходства с оксалат-декарбоксилазой с разными порогами e-value различались.