Работа в

Blast

СеместрыВторой семестр • Работа в Blast

Blast — онлайн-сервис и семейство программ, служащих для поиска гомологов белков или нуклеиновых кислот по их первичной структуре. Сервис доступен по этой ссылке.

Поиск гомологов белка Bontoxilysin A

С помощью программы protein BLAST я провел поиск гомологичных последовательностей по базе UniProt/SwissProt. Все найденные последовательности приведены на рис.1. Цветом выделена выбранная мною последовательность, отвечающая нетоксическому компоненту ботулинического токсина (серологический тип Е). Информацию об этом белке можно посмотреть здесь.

Рисунок 1. Предположительно гомологичные последовательности, найденные программой BLAST.

К каждой последовательности BLAST приводит ее характеристики. Расшифровка их значений приведена в таблице 1.

Таблица 1. Расшифровка характеристик последовательности в выдаче BLAST.

Позиция

Расшифровка

Description Имя белка и его краткое описание
Max score Максимальный вес выравнивания: вес выравнивания последовательности из запроса с участком данной последовательности из базы данных.
Total score Общий вес выравнивания: сумма весов всех сегментов, соответствующих последовательности из запроса. Отличается от Max Score, если выравнивается не один участок.
Query cover Покрытие: показывает, какой процент последовательности выравнен с последовательностью из запроса.
E-value Среднее число находок по даному запросу с таким же или лучшим весом в банке случайных последовательностей (по объему равному банку, в котором проводился поиск).
Ident Идентичность: процент совпадающих позиций
Accession Код белка в базе данных

Харатеристики выбранной последовательности представлены в таблице 2.

Таблица 2. Характеристики выбранной находки.

Description

Max score

Total score

Query cover

E-value

Ident

Accession

RecName: Full=Botulinum neurotoxin type E non-toxic component [Clostridium botulinum] 89.0 145 62% 2e-16 30% P45081.1

Выбранная мной находка выравнивается с последовательностью белка Bontoxilysin A в двух местах. На рис.2 представлено первое выравнивание (с 4 по 276 остаток исходной последовательности, с 3 по 244 остаток найденной), на рис.3 — второе (с 606 по 1119 остаток исходной последовательности, с 525 по 1028 остаток найденной).

Рисунок 2. Первое выравнивание найденной последовательности с исходной.

Рисунок 3. Второе выравнивание найденной последовательности с исходной.

В таблице 3 представлены характеристики лучшей находки в выдаче (не считая саму исходную последовательность).

Таблица 3. Характеристики лучшей находки.

Description

Max score

Total score

Query cover

E-value

Ident

Accession

RecName: Full=Botulinum neurotoxin type A; Short=BoNT/A; AltName: Full=Bontoxilysin-A; Short=BOTOX; Contains: RecName: Full=Botulinum neurotoxin A light chain; Contains: RecName: Full=Botulinum neurotoxin A heavy chain; Flags: Precursor 2396 2396 100% 0.0 90% A5HZZ9.1

Карта локального сходства

С помощью опции "align two sequences" я построил карту локального сходства исходной последовательности (по горизонтали) и найденной (по вертикали). Линия соединяет выравниваемые позиции. Карта представлена на рис.4.

Рисунок 4. Карта локального сходства последовательностей белка Bontoxilysin A и нетоксичной части белка Bontoxilysin E.

Четко выделяются два явно гомологичных участка, каждый с несколькими вставками или делециями в одной из последовательностей. Короткая линия, выравнивающая самый конец исходной последовательности с участком найденной около 900 остатка, скорее всего, не несет какого-либо смысла.

Эукариотические гомологи

В выкладке BLAST четыре находки соответствуют белкам эукариот, однако E-value ближайшей равен 3,4, соответственно, гомологами они, скорее всего, не являются.

Затем я провел поиск гомологов только среди белков бактерии Clostridium tetani. Одна находка (Tetanus toxin) с E-value 0.0 явно гомологична.

Множественное выравнивание

Я помощью сервисов BLAST я построил множественное выравнивание первых 14 последовательностей в выдаче (наименьший E-value 9e-14). Абсолютно консервативных позиций 60, что составляет 4,112% от длины выравнивания (1459). Функционально консервативных позиций 186, что составляет 12,749%.

Проект jalview можно скачать.

Поиск по базе RefSeq

BLAST может искать гомологов в различных базах белков. Выдача поиска по базе RefSeq Protein заметно отличается от таковой по базе UniProt/SwissProt. В случае с RefSeq находок больше (54 против 22), их E-value, кроме последней находки, не превышает 7e-11, нет находок, относящихся к белкам эукариот, есть четыре находки, соответствующие белкам фагов.