Учебная страничка Васюткиной Ольги

Работа в BLAST

BLAST (Basic Local Alignment Search Tool) - программа для поиска белков, сходных по первичной структуре. Является удобным инструментом для поиска гомологичных белков.

Я использовала protein BLAST на сайте NCBI для поиска белков, сходных с белком репарации и рекомбинации RadA организма Methanococcus voltae (AC O73948). Входные данные: AC записи белка (будем обозначать как query), база данных для поиска. Вначале поищем в базе данных SwissProt, в которой хранятся записи белков, аннотированные экспертом. На рис. 1 показаны 10 первых (сортировка по возрастанию E-value) находок. Всего их 102.

Рис. 1

Рис. 1. Результаты BLAST для записи с AC O73948. Сортировка по возрастанию E-value

Вот расшифровка заголовков таблицы результатов:

Description - название найденной записи. Содержит полное название белка и латинское название организма в квадратных скобках. (см. ниже пример названия)
Max score - максимальный вес парного выравнивания с исходной последовательностью.
Total score - общий вес парного выравнивания, сумма весов всех выровненных участков. Не совпадает с Max score, если в парном выравнивании более одного участка сходства. В нашем случае такого не обнаружилось.
Query cover - показывает, какой процент длины исходной последовательности выровнялся с найденной.
E value - математическое ожидание. Показывает, насколько велик шанс встретить последовательность той же длины с таким же или большим весом в банке случайных последовательностей.
Ident - процент совпавших аминокислот в выравнивании
Positives - процент сходных аминокислот в выравнивании (обладают положительным весом в таблице сходства)
Accession - номер (Accession Number) найденной записи в базе данных.

Рассмотрим более детально одну из находок. Я выбрала запись с таким Description:

RecName: Full=DNA repair and recombination protein RadA [Archaeoglobus fulgidus DSM 4304]

Archaeoglobus fulgidus - это архея, обитающая в горячих источниках. В отличие от Methanococcus voltae, она не является метаногеном. (источник: Stetter, KO (1988). "Archaeoglobus fulgidus gen. nov., sp. nov. a new taxon of extremely thermophilic Archaebacteria". Syst. Appl. Microbiol. 10: 172–173.)
Лучшая находка - запись со следующим Description:

RecName: Full=DNA repair and recombination protein RadA [Methanococcus maripaludis C5]

Я составила таблицу с выходными параметрами BLAST для последовательности Archaeoglobus fulgidus(№1 в таблице) и для лучшей последовательности (№2).

Таблица 1. Сравнение двух находок BLAST

EntryMax scoreTotal scoreQuery coverE valueIdentAccession
134234298%1e-11453%O29269.1
2 (Best)560560100%0.085%A4FWV5.1

Также BLAST выдает парные выравнивания каждой находки с query. Выравнивание выбранной (№1) последовательности с query - на рис. 2.

Рис. 2

Рис. 2. Выравнивание query с последовательностью с AC O29269

Посмотрим на построенную BLAST карту локального сходства между query и выбранной последовательностью, см. рис. 3. Из карты можно сделать вывод, что в целом от начала и до конца последовательности хорошо выравниваются друг относительно друга, то есть они гомологичны. В середине есть несколько разрывов, которые обозначают гэпы в выравнивании, но их количество несущественно для отрицания гомологии.

Рис. 3

Рис. 3. Карта локального сходства query и выбранной последовательности

Далее было введено ограничение - поиск только среди эукариотов. Число находок сократилось до 52. Часть результатов поиска представлена на рис. 3. Есть большое сходство с грибами (Schizosaccharomyces pombe, Saccharomyces cerevisiae, Ustilago maydis), растениями (Lilium longiflorum, Arabidopsis thaliana, Zea mays), животными (Xenopus laevis, Gallus gallus) в т.ч. с человеком. В списке обнаружился и белок человека с AC Q14565, с которым я уже работала в этом семестре (ссылка). Я выбрала из находок 10 записей, которые принадлежат к разным таксонам. Затем я построила их множественное выравнивание в Jalview с помощью Muscle. Тем не менее, консервативных (25%) и функционально консервативных колонок (20%) очень много, что говорит нам о гомологичности всех последовательностей и о высокой консервативности белка. Выравнивание показано на рис. 5.

Файл в формате fasta с 10 найденными последовательностями: загрузить.

Рис. 4

Рис. 4. Результаты BLAST для записи с AC O73948 среди эукариотов. Сортировка по возрастанию E-value

Рис. 5

Рис. 5. Множественное выравнивание результатов BLAST

Теперь изменим базу данных, в которой ведется поиск. В базе данных RefSeq: 100 находок, на рис. 6 - первые 10 находок, с минимальным E-value. Если учесть, что при поиске в RefSeq лучшие находки принадлежат эукариотам, будет справедливо сравнить их с находками Swiss-Prot среди эукариот. Заметим, что нет ни одной совпадающей c SwissProt записи, даже одного организма среди лучших 20 находок. Параметры сравнения результатов BLAST во всех трех случаях сведены в таблицу 2.

Рис. 6

Рис. 6. Результаты BLAST для записи с AC O73948 в базе данных RefSeq. Сортировка по возрастанию E-value

Таблица 2. Сравнение 10 лучших результатов BLAST при поиске в Swiss-Prot и в RefSeq

База данныхЧисло находокMax scoreE-valueIdent
Swiss-Prot102323-560< 1e-177 - 9е-10852%-85%
Swiss-Prot (среди эукариот)52239-2435е-75 - 8е-7740%-43%
RefSeq100251-2646е-78 - 6е-8344%

Valid HTML 4.01 Transitional