Blast — онлайн-сервис и семейство программ, служащих для поиска гомологов белков или нуклеиновых кислот по их первичной структуре. Сервис доступен по этой ссылке.
С помощью программы protein BLAST я провел поиск гомологичных последовательностей по базе UniProt/SwissProt. Все найденные последовательности приведены на рис.1. Цветом выделена выбранная мною последовательность, отвечающая нетоксическому компоненту ботулинического токсина (серологический тип Е). Информацию об этом белке можно посмотреть здесь.
Рисунок 1. Предположительно гомологичные последовательности, найденные программой BLAST.
К каждой последовательности BLAST приводит ее характеристики. Расшифровка их значений приведена в таблице 1.
Таблица 1. Расшифровка характеристик последовательности в выдаче BLAST.
Позиция |
Расшифровка |
Description | Имя белка и его краткое описание |
Max score | Максимальный вес выравнивания: вес выравнивания последовательности из запроса с участком данной последовательности из базы данных. |
Total score | Общий вес выравнивания: сумма весов всех сегментов, соответствующих последовательности из запроса. Отличается от Max Score, если выравнивается не один участок. |
Query cover | Покрытие: показывает, какой процент последовательности выравнен с последовательностью из запроса. |
E-value | Среднее число находок по даному запросу с таким же или лучшим весом в банке случайных последовательностей (по объему равному банку, в котором проводился поиск). |
Ident | Идентичность: процент совпадающих позиций |
Accession | Код белка в базе данных |
Харатеристики выбранной последовательности представлены в таблице 2.
Таблица 2. Характеристики выбранной находки.
Description |
Max score |
Total score |
Query cover |
E-value |
Ident |
Accession |
RecName: Full=Botulinum neurotoxin type E non-toxic component [Clostridium botulinum] | 89.0 | 145 | 62% | 2e-16 | 30% | P45081.1 |
Выбранная мной находка выравнивается с последовательностью белка Bontoxilysin A в двух местах. На рис.2 представлено первое выравнивание (с 4 по 276 остаток исходной последовательности, с 3 по 244 остаток найденной), на рис.3 — второе (с 606 по 1119 остаток исходной последовательности, с 525 по 1028 остаток найденной).
Рисунок 2. Первое выравнивание найденной последовательности с исходной.
Рисунок 3. Второе выравнивание найденной последовательности с исходной.
В таблице 3 представлены характеристики лучшей находки в выдаче (не считая саму исходную последовательность).
Таблица 3. Характеристики лучшей находки.
Description |
Max score |
Total score |
Query cover |
E-value |
Ident |
Accession |
RecName: Full=Botulinum neurotoxin type A; Short=BoNT/A; AltName: Full=Bontoxilysin-A; Short=BOTOX; Contains: RecName: Full=Botulinum neurotoxin A light chain; Contains: RecName: Full=Botulinum neurotoxin A heavy chain; Flags: Precursor | 2396 | 2396 | 100% | 0.0 | 90% | A5HZZ9.1 |
С помощью опции "align two sequences" я построил карту локального сходства исходной последовательности (по горизонтали) и найденной (по вертикали). Линия соединяет выравниваемые позиции. Карта представлена на рис.4.
Рисунок 4. Карта локального сходства последовательностей белка Bontoxilysin A и нетоксичной части белка Bontoxilysin E.
Четко выделяются два явно гомологичных участка, каждый с несколькими вставками или делециями в одной из последовательностей. Короткая линия, выравнивающая самый конец исходной последовательности с участком найденной около 900 остатка, скорее всего, не несет какого-либо смысла.
В выкладке BLAST четыре находки соответствуют белкам эукариот, однако E-value ближайшей равен 3,4, соответственно, гомологами они, скорее всего, не являются.
Затем я провел поиск гомологов только среди белков бактерии Clostridium tetani. Одна находка (Tetanus toxin) с E-value 0.0 явно гомологична.
Я помощью сервисов BLAST я построил множественное выравнивание первых 14 последовательностей в выдаче (наименьший E-value 9e-14). Абсолютно консервативных позиций 60, что составляет 4,112% от длины выравнивания (1459). Функционально консервативных позиций 186, что составляет 12,749%.
Проект jalview можно скачать.
BLAST может искать гомологов в различных базах белков. Выдача поиска по базе RefSeq Protein заметно отличается от таковой по базе UniProt/SwissProt. В случае с RefSeq находок больше (54 против 22), их E-value, кроме последней находки, не превышает 7e-11, нет находок, относящихся к белкам эукариот, есть четыре находки, соответствующие белкам фагов.