BLAST

Использование BLAST для анализа последовательностей

При помощи BLAST очень удобно проводить поиск последовательностей, гомологичных данной по различным базам данных. Также BLAST автоматически создает парное выравниванеи найденной последовательности с запрашиваемоей. Кроме того, при помощи BLAST можно строить карты локального сходства двух последовательностей.
Все эти возможности описаны в соответствующих разделах практикума.

Использование BLAST для поиска гомологичных последовательностей

На ввод BLAST можно подать коды доступа (accession number), gi(s) или последовательноcти в FASTA-формате.
По умолчанию, на количество выводимых найденных последовательностей накладываются ограничения по числу (не более 100 последовательностей) и по E-value (e-value < 10). Естественно, данные значения могут быть легко изменены в параметрах BLAST.
В качестве иллюстрации возможностей BLAST, был проведен поиск гомологов белка CRH_BACSU (более подробную информацию об этом белке можно найти на соответствующих страницах).
Поиск проводился в трех базах данных: Результаты поиска - лучшая находка и ее параметры (е-value, ac, вес, идентичность) и параметры худшей находки представлены в таблице 1.

Таблица 1. Результаты поиска гипотетических гомологов белка CRH_BACSU

  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession O06976.1 2RLZ_A NP_391354.1
E-value 3e-54 3e-55 2e-52
Вес (в битах) 169 169 169
Процент идентичности 100% 100% 100%

2. Число находок с E-value < 10–10 (хороших кандидатов в гомологи)

36 33 1413

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 60 33 4160
Accession Q83QP3.1 1Y50_A ZP_09377014.1
E-value 0.30 1e-12 0.98
Вес (в битах) 32.3 59.3 35.8
% идентичности 27 43 26
% сходства 47 67 47
Длина выравнивания 74 61 76
Координаты выравнивания (от-до, в запросе и в находке) В запросе: 10-81 В находке: 10-83 В запросе: 1-61 В выравнивании:1-61 В запросе: 10-83 В выравнивании: 10-85
Число гэпов 2 0 2

4. Число выводимых последовательностей-находок.

Общее число находок 66 (100 по умолчанию) 37 (100 по умолчанию) 4499 (разрешено 5000)
E-value последней находки 8.3 (10 по умолчанию) 9.2 (10 по умолчанию) 9.9 (10 по умолчанию)

Комментарии к таблице 1.

  1. Лимит числа выводимых находок.

  2. Исходный белок (Ас - O06976) был найден первым в списке при поиске по SwissProt. В "nr" на первый взгляд (при стандартных параметрах) этой записи не было, однако, так как SW является подмножеством "nr", следует ее там ожидать. При поиске в PDB последовательность с идентификатором 1ZVV, структуре которой посящен раздел на сайте стоит одной из первых в списке.

  3. База данных "nr" (Non-redundant protein sequences) является наиболее всеобьемлющей из предложенных, соответственно, логично ожидать именно в ней наибольшее число близких гомологов (с E-value < 1e-10). Данное предположение подтвержается опытом - 1413 находок против 36 и 33 для SW и PDB. Логично объясняется и наименьшее число находок в PDB - трехмерная структура, в отличие от последовательности аминокислот, известна для гораздо меньшего числа белков.

Поиск гомологов из организмов других таксонов при помощи BLAST

В параметрах BLAST можно указать таксон организмов из которых будет проводиться поиск гомологов.
Было предложено поискать ближайших гомологов (с e-value < 0.001) белка CRH_BACSU из организмов других таксонов: Для базы данных "nr" гомолог с таким параметром был найден сразу в эукариотах (самый далекий таксон), что логично, так как эта база очень велика.
В SW, второй по величине бд из предложенных, результат был получен во втором по "отдаленности" таксоне - актиномицетах.
Для PDB,- самой узкой базы, удовлетворительные гомологи были найдены только в группе клостридий.
Результаты поиска представлены в таблице 2.

Таблица 2. Результаты поиска гомологов белка CRH_BACSU из организмов различных таксонов.

  Поиск по Swiss-Prot (Actinobacteria) Поиск по PDB (Сlostridia) Поиск по "nr" (Eucarya)

Поиск ближайшего гомолога.

Accession O50515.3 3LE1_A XP_003493001.1
E-value 1е-14 3e-29 6e-16
Вес (в битах) 58.2 98.2 74.3
% идентичности 38 58 42
% сходства 55 80 65
Длина выравнивания 84 77 83
Координаты выравнивания (от-до, в запросе и в находке) В запросе: 1-83 В находке: 1-84 В запросе: 6-82 В выравнивании:6-82 В запросе: 1-83 В выравнивании: 1-83
Число гэпов 1 0 0

Использование BLAST для получения карты локального сходства двух последовательностей

В параметрах BLAST можно подать на ввод более чем одну последовательность ( галочка у Align two or more sequences и появится новое окошко для ввода).
Если теперь запустить алгоритм, то мы получим парное выравнивание данных последовательностей и его параметры. Кроме того, BLAST автоматически построит карту локального сходства (рис.1 и рис.2) этих двух последовательностей (Dot Matrix View) - т.е. графическое изображения выравнивания в виде таблицы, на сторонах которой расположены последовательности, и отмечены только те ячейки, которые образованы пересечением строк и столбцов с одинаковыми символами (в нашем случае аминокислотами).

Для BLAST с более чем одной последовательностью также можно варьировать значением e-value: первая карта построена при значении по умолчанию (10), а вторая - при e-value=0.01. Для примера (рис 1., рис 2.) была получена карта локального сходства исходной последовательности (O06976) и последовательности, найденной во втором задании (O50515.3).
Рис 1.Карта локального сходства последовательностей с е-value=10 Рис 2.Карта локального сходства при e-value=0.01

Как видно из графиков, значения параметра е-value в данном случае никак не повлияло на карту локального сходства.

Ссылки:

  1. BLAST

© 2012; Sutormin Dmitry