BLAST

Поиск гипотетических гомологов изучаемого белка в разных банках

BLAST (сокращение от Basic Local Alignment Search Tool) - программа, осуществляющая поиск участков локального сходства между заданной последовательностью и всеми последовательностями определённого банка данных. Использует последовательности как белковые, так и нуклеотидные, может быть использована для выяснения эволюционных связей между белками, поиска функционально схожих участков в неродственных белках и общей классификации генов в семейства.

Поиск BLAST проводился по трём базам данных: Swiss-Prot, PDB (Protein Data Bank) и nr (non-redundunt protein sequences). О первых двух ресурсах упоминалось в предыдущих практикумах, третья же база данных содержит в себе информацию о последовательностях из SwissProt, SwissProt updates, PIR и PDB. Включает большое количество гипотетически существующих последовательностей. При поиске использовалась матрица BLOSUM62, штраф за открытие гэпа составлял 11, а за его продолжение - 2. Варьировались параметры максимального E-value и количества последовательностей в выдаче BLAST.

Таблица 1. Результаты поиска гомологов белка CISY_BACSU с помощью BLAST
  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession code P39119.2 2C6X_A ZP_03590631.1
E-value 0.0 0.0 0.0
Вес (в битах) 807 801 807
Процент идентичности 100 100 100

2. Число находок с E-value < 10–10

97 27 6570

3. Худшая находка из "удовлетворительных" (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 117 27 8513
Accession F4J5S1.1 1CSC_A EKD14678.1
E-value 0.45 2e-12 0.99
Вес (в битах) 36.6 70.0 40.9
Процент идентичности 39 24 23
Процент сходства 54 40 45
Длина выравнивания (в а/к остатках) 125 319 125
Координаты выравнивания запрос: 112-232
находка: 1266-1385
запрос: 47-341
находка: 94-410
запрос: 166-287
находка: 437-561
Число гэпов 3/51(5%) 26/319(8%) 3/125(2%)

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

В этом разделе осуществляется поиск гомологов белка (только по банку Swiss-Prot) в таксонах различного ранга от другого доминиона (Eukaryota) до другого вида того же рода (Bacillus anthracis). Задачей является нахождение приемлемого гомолога (E-value < 0.001) в группе по возможности наиболее удалённой от B. subtilis. Результаты поиска и характеристики находок находятся в таблице 2.

Таблица 2. Результаты поиска гомологов в различных группах организмов по банку Swiss-Prot и характеристики находок

Поиск не дал результатов в четырёх запросах из семи (см. Табл. 2). Три оставшихся запроса выдали записи гомологов, характеристики выравниваний которых указывают на высокое сходство последовательностей с заданной. Кроме того, что неудивительно, количество найденных гомологов уменьшается с уменьшением ранга, а следовательно, и объёма таксона. Наиболее сходным по последовательности гомологом, который принадлежит к удалённому таксону, является пероксомальная цитратсинтаза из Arabidopsis thaliana - растения из семейства крестоцветных, классического объекта многих лабораторных исследований.

BLAST двух последовательностей

В этом разделе BLAST использовался как инструмент для выравнивания последовательности исходного белка и гомолога, найденного среди Lactobacillales (см. раздел 2). Этим гомологом оказалась цитратсинтаза из бактерии Streptococcus mutans. Было проведено выравнивание с порогами E-value 10 и 0.01 (см. рисунок 1). Карта локального сходства и другие характеристики выравнивания не изменялись при разных E-value, приводятся характеристики и карта только для одного случая.

Рис. 1 Карта локального сходства выравниваемых последовательностей. Рис. 2 Полученное выравнивание белка с его гомологом, характеристики выравнивания.

Сравнение результатов поиска с использованием различных матриц BLOSUM

В этом разделе мы выясним, как влияет порог кластеризации используемой матрицы на результаты поиска гомологов рассматриваемого белка. Проведём поиск наиболее отдалённого гомолога из Eukaryota с использование матрицы BLOSUM45 и BLOSUM90, затем сравним результаты с уже проведённым поиском с матрицей BLOSUM62.

Таблица 3. Сравнение результатов поиска BLAST с использованием различных матриц замен
Используемая матрица BLOSUM 62 BLOSUM 90 BLOSUM 45
Номер находки в списке описаний 1 1 1
Accession Q9SJH7.1 Q9SJH7.1 Q9SJH7.1
E-value 1E-63 5E-61 5E-58
Вес (в битах) 228 223 197
% идентичности 35 36 35
% сходства 55 49 56
Длина выравнивания 370 374 370
Число гэпов 25/370(6%) 33/374(8%) 25/370(6%)

В целом, большинство позиций сравнения между тремя матрицами имеют сходные значения, но можно отметить, что из-за замены матрицы происходят изменения в весе выравнивания, что влечёт за собой изменение E-value, identity и similarity. Кроме того, BLAST по умолчанию использует для различных матриц разные штрафы за открытие и продление гэпа, что сказывается на длине выравнивания и количестве пропусков.

Сравнение различных интерфейсов программы BLAST

В этом разделе сравнивается удобство использование программы BLAST, которая доступна не только с сервера NCBI, но и с серверов EMBL-EBI и UniProt. Результаты сравнения представлены в таблице 4.

Таблица 4. Сравнение различных интерфейсов для использования BLAST
Параметры срапвнения сервер NCBI сервер EMBL-EBI сервер Uniprot
Простота использования сложно, много на первый раз непонятных полей интерфейс проще, введена пошаговая схема, что плюс интерфейс предельно упрощён
Количество и разнообразие БД БД много, представлены разнообразные по смыслу БД много, во многих есть выбор подразделов БД мало, в основном, связанные с Uniprot
Количество матриц 8 8 5
Точность выбора систематической группы предельно удобный и точный инструмент выбора выбор в рамках крупных таксонов в названиях БД выбор в рамках крупных таксонов в названиях БД
Наглядность представления результата результаты расположены раскрывающимся списком, что неудобно результаты удобно раcположены по различным смысловым вкладкам просто ориентироваться, немного различных групп результатов

Итак, хочется отметить, что сервер Uniprot удобен для неспециализированного использования, даже при незнании глубинных вопросов, связанных с BLAST. Интерфейс крайне "user-friendly", что упрощает и ускоряет работу. Многие опции автоматизированы. Что касается двух оставшихся серверов, то используемые там интерфейсы хороши, если требуется точно настроенный поиск, затрагивающий иногда изменения в самом алгоритме поиска. Сервер EMBL-EBI порадовал большим количеством информации по анализу полученных результатов, в том числе, например, наличием вкладки Functional Predictions, где показаны данные по поиску мотивов, доменов и других характерных для последовательности элементов.

Дата последнего обновления: 17.04.2013
© Dmitry Travin, 2012