BLAST
Поиск гипотетических гомологов оксалат-декарбоксилазы Bacillus subtilis с помощью BLAST
BLAST (Basic Local Alignment Search Tool) - программа, осуществляющая поиск участков локального сходства поданной на вход последовательности и последовательностей из выбранной базы данных. Для двух последовательностей ищется наилучшее локальное парное выравнивание, для чего рассчитывается критерий E-value, зависящий от веса выравнивания и длин последовательностей (подробнее о статистических критериях оценки выравниваний тут [EN]). Чем он ниже, тем "неслучайнее" получившееся выравнивание. Результаты по всем находкам выводятся в порядке увеличения E-value. Таким образом, по этому критерию возможно отбирать вероятно гомологичные заданной последовательности. Поиск был произведён для OXDC_BACSU (с помощью интерфейса BLAST на сервере NCBI) в трёх базах данных: Swissprot, PDB и nr(non-redundant protein sequences). Последняя представляет собой "объединение" всех банков последовательностей белков, по которым можно производить поиск c помощью BLAST, т.е. Swissprot и PDB в неё тоже входят. Результаты приведены в таблице 1.
Таблица 1. Результаты поиска гипотетических гомологов белка OXDC_BACSUПоиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
1. Лучшая находка (с последовательностью исходного белка) |
|||
Accession | O34714 | 1L3J_A | NP_391204 |
E-value | 0.0 | 0.0 | 0.0 |
Вес (в битах) | 800 | 800 | 800 |
Процент идентичности | 100% | 100% | 100% |
2. Число находок |
1 (не считая сам белок) | 7 (не считая сам белок) | 657 |
3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) |
|||
Номер находки в списке описаний | 53 | 29 | 1318 |
Accession | Q92UI1.1 | 3NE5_A | ZP_21002137.1 |
E-value | 0.90 | 0.75 | 0.99 |
Вес (в битах) | 34.3 | 32.3 | 39.3 |
% идентичности | 30% | 31% | 34% |
% сходства | 43% | 52% | 50% |
Длина выравнивания | 94 | 55 | 56 |
Координаты выравнивания (от-до, в запросе и в находке) | q 249-331 s 59-152 | q 88-139 s 534-585 | q 88-143 s 44-98 |
Число гэпов | n=2 l(sum)=11 | n=2 L(sum)=6 | n=1 L(sum)=1 |
4. Число выводимых находок |
|||
e-value последней находки | 7.8 | 6.1 | 10.0* |
Число находок | 100 | 49 | 1497 (5000)* |
*-размер выдачи изменён в настройках
Комментарии к таблице:
- Удалось ли найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB? - да, во всех базах данных. Однако в "nr" среди находок с нулевым e-value были и не принадлежащие B.subtilis последовательности.
- Сравните число явных гомологов (E-value < 10-10) при поиске по разным БД и поясните возможные причины различий - Число находок растёт от PDB к "nr", что логично, т. к. объём банка PDB небольшой, трёхмерных структур известно мало; отрецензированных последовательностей в Swissprot чуть побольше, а в "nr" вообще всё подряд.
- Чем в вашем случае было лимитировано число находок: значением E-value или заданным по умолчанию предельным размером выдачи? В случае PDB объём выдачи был лимитирован e-value, число результатов не достигло сотни (порог по умолчанию). По Swissprot число находок равно стандартному размеру выдачи. По "nr" пришлось изменить размер выдачи в параметрах, чтобы получить все результаты с E-value < 10-10
Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Для поиска гомологов были предложены следующие таксоны:
- Eukaryota (другое царство)
- Actinobacteria (другой отдел того же царства бактерий)
- Clostridia (другой класс того же отдела Firmicutes)
- Lactobacillales (другой порядок того же класса Bacilli)
- Listeriaceae (другое семейство того же порядка Bacillales)
- Geobacillus (другой род того же семейства Bacillaceae)
- Bacillus anthracis (другой вид того же рода)
Табл.2 Поиск предполагаемых гомологов в отдалённых таксонах
Поиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
Таксон, в котором найден гомолог | Eukaryota (Gossypium hirsutum) | Eukaryota (Prunus Dulcis) | Eukaryota (Beauveria bassiana) |
Число подходящих последовательностей | 11 | 1 | 352 |
Accession лучшего | P09802.2 | 3EHK_A | EJP69689.1 |
E-value лучшего | 1e-07 | 7e-06 | 3e-151 |
Вес (в битах) | 55.8 | 47.0 | 446 |
% идентичности | 23% | 29% | 59% |
% сходства | 39% | 50% | 75% |
Длина выравнивания | 228 | 102 | 362 |
Координаты выравнивания (от-до, в запросе и в находке) | q 9-202 s 276-496 | q 95-194 s 410-470 | q 2-361 s 68-429 |
Число гэпов | n=5 L(sum)=41 | n=2 L(sum)=2 | n=2 L(sum)=2 |
Бласт двух последовательностей
С помощью BLAST было выполнено парное выравнивание OXDC_BACSU и найденного при поиске в базе nr гомолога с идентификатором WP_007417048 из Pedosphaera parvula (Verrucomicrobia)*** с двумя разными порогами e-value - 10 и 0.1. В первом случае BLAST выравнивает последовательности аж двумя способами, правда, второе выравнивание отсекается порогом e-value 0.1. Посмотреть выравнивания и их характеристики можно на рис. 1 и 2.
Рис. 1 Выравнивание 1, с низким е-value
Рис. 2 Выравнивание 2, с большим e-value
Кроме того, BLAST автоматически строит карту локального сходства - графическое представление выравнивания, показывающее, какие участки белков соотнесены с какими(по осям - номера аминокислотных остатков). Посмотреть графики можно на рисунках 3 и 4.
Рис. 3 Карта локального сходства последовательностей при пороге е-value=10 |
Рис. 4 Карта локального сходства последовательностей при пороге е-value=0.1 |
*** это не эукариотическая последовательность, а белок из другого бактериального филума. Выравнивать его в этом задании более рационально, т.к. не удалось найти эукариотических белков, для которых бы карты локального сходства с оксалат-декарбоксилазой с разными порогами e-value различались.