Учебный сайт Светланы Яровенко
» Семестры » Второй семестр » BLAST

BLAST

BLAST — это программа, широко используемая в биоинформатике для поиска гомологов для поданной последовательности белка в различных базах данных.

На вход программе подаётся последовательность в формате fasta, выбирается база данных, по которой идёт поиск, а также алгоритм поиска. В данном случае был выбран алгоритм BlastP, который просто сравнивает последовательность белка с другими из базы данных[1]. На выходе получается таблица со списком подходящих последовательностей и выравнивание каждой из них с исходной.

Таблица состоит из 7 колонок: Description, Max score, Total score, Query cover, E-value, Ident, Accession. Ниже приведено краткое пояснение каждого из этих названий колонок.


Поиск гомологов белка дегидратазы из организма Chloroflexus aurantiacus штамм J-10-fl (идентификатор YP_001633816.1 в базе RefSeq) в банке Uniprot/SwissProt

В данном задании хорошей находкой считалась находка со следующими параметрами: Identity 40-70%, Сoverage < 100%, E-value < 0.00001, но и не 0.0.


Изначально программа была запущена для поиска гомологов белка дегидратазы, основываясь на банк последовательностей Uniprot/SwissProt. Но в результате было получено только 9 последовательностей, минимальным E-value которых составлял 0.17, что не соответствует упомянутым выше условиям. Результаты поиска приведены на Рисунке 1.

Результат поиска гомологов в банке последовательностей Uniprot/SwissProt

Рисунок 1. Результат поиска гомологов в банке последовательностей Uniprot/SwissProt.
Результат получен с помощью программы BLAST.


Следующие данные приведены для последовательностей, найденных в базе данных Refseq. На Рисунке 2 показана часть результата данного запроса.

Первые 23 (из 100) результата поиска гомологов в банке последовательностей Refseq

Рисунок 2. Первые 23 (из 100) результата поиска гомологов в банке последовательностей Refseq.
Галочкой отмечены последовательности белков, которые позднее были использованы в выравнивании.
Результат получен с помощью программы BLAST.

В качестве лучшей находки был выбран белок дегидратаза (ID WP_008619921.1 в базе Refseq) из организма бактерии Magnetospirillum sp. штамм SO-1. Это магнитотактическая бактерия-спирилла, обитающая в пресных водоёмах[2]

В Таблице 1 представлены данные для лучшей находки, полученные из выходной таблицы.


Таблица 1. Значения колонок выходной таблицы для дегидратазы из организма Magnetospirillum sp. SO-1.
Description Max score Total score Query score E-value Indent Accession Positives Gaps
dehydratase
[Magnetospirillum sp. SO-1]
505 505 98% 3*10-176 67% WP_008619921.1 81% 1%


Ниже приведено выравнивание последовательности-находки с исходной:

Query  4    KTNPGNFFEDFRLGQTIVHATPRTITEGDVALYTSLYGSRFALTSSTPFAQSLGLER---  60
            KTN GNFFEDFRLGQ I HATPRT+T GDVALYT+LYGSRFA+ SS  FA+++GL     
Sbjct  3    KTNSGNFFEDFRLGQVISHATPRTVTAGDVALYTALYGSRFAVNSSAEFAKAIGLAAENM  62

Query  61   ---APIDSLLVFHIVFGKTVPDISLNAIANLGYAGGRFGAVVYPGDTLSTTSKVIGLRQN  117
               AP+D LL FH+VFGKTVPDISLNA+ANLGYA GRFG +VYPGDT++TTS VIGL++N
Sbjct  63   GHIAPVDDLLAFHVVFGKTVPDISLNAVANLGYAMGRFGEMVYPGDTITTTSTVIGLKEN  122

Query  118  KDGKTGVVYVHSVGVNQWDEVVLEYIRWVMVRKRDPNAPAPETVVPDLPDSVPVTDLTVP  177
             + +TGVVYV SVG NQ  E+V++Y+RWVMVRKRD NA   E  VP+LP +V   DL +P
Sbjct  123  SNKQTGVVYVRSVGTNQLHEMVVDYVRWVMVRKRDQNAATSEEKVPELPGAVAAADLVIP  182

Query  178  YTVSAANYNLAHAGSNYLWDDYEVGEKIDHVDGVTIEEAEHMQATRLYQNTARVHFNLHV  237
              +   +Y+   AGS +LWDDY VGEKIDHVDG+TIEEAEHM ATRL+QNTA+VHFN + 
Sbjct  183  DNLRLGDYDTTLAGSPHLWDDYAVGEKIDHVDGMTIEEAEHMMATRLWQNTAKVHFNQYT  242

Query  238  EREGRFGRRIVYGGHIISLARSLSFNGLANALSIAAINSGRHTNPSFAGDTIYAWSEILA  297
            E +GRFGRR++YGGHIIS+AR+LSFNGL NA  + AIN GRHTNP+FAGDTI+AW+E+L 
Sbjct  243  EGQGRFGRRLIYGGHIISIARALSFNGLGNAFKLVAINGGRHTNPTFAGDTIHAWTEVLE  302

Query  298  KMAIPGRTDIGALRVRTVATKDRPCHDFPYRDAEG-NYDPAVVLDFDYTVLMPRR  351
            K+ +PGR D+GALR+R VATK++PC  FP +   G ++DPAVVLDFDYTVLMPR+
Sbjct  303  KIEVPGRKDVGALRLRLVATKNQPCAGFPLKAENGKDFDPAVVLDFDYTVLMPRK  357

Query — это поданная последовательность, subject — последовательность находки. Исходя из выравнивания, представленного выше, участок сходства в поданной последовательности — 4-351, найденной — 3-357. Участок находки, похожий на query, состоит из 355 аминокислотных остатков, что составляет 99% от общей длины полученной последовательности (от 358).


Карта локального сходства между query и выбранной находкой

Помимо поиска гомологов, с помощью BLAST можно построить карту локального сходства двух выбранных последовательностей. Карта локального сходства белка дегидратазы из организма C. aurantiacus и Magnetospirillum sp. представлена на Рисунке 3.

Карта локального сходства

Рисунок 3. Карта локального сходства.
Ось абцисс соответствует исходной последовательности, ось ординат — лучшей находке.
Результат получен с помощью программы BLAST.


Из Рисунка 3 можно сделать вывод, что последовательности гомологичны на всём своём протяжении, что говорит о гомологии этих последовательностей. Небольшим подъёмам линии соответствуют "гэпы". Вторая линия говорит о том, что фрагмент query (примерно с 186 по 317) также выравнивается с находкой.


Эукариотические гомологи

Для поиска гомологов белка дегидратазы среди эукариот в поле "Organism" был добавлен таксон "eucaryotes (taxid:2759)". В итоге было найдено 13 белков, 3 из которых подходили по E-value под параметры хорошей находки. Это белки из морской диатомовой водоросли (Thalassiosira pseudonana CCMP1335) и клещевины (Ricinus communis). Исходя из названий, это предполагаемые белки.

Эукариотические гомологи

Рисунок 4. Результат поиска гомологов среди эукариот.
Результат получен с помощью программы BLAST.


Множественное "выравнивание" находок

С помощью сервиса COBALT было построено множественное выравнивание 10 найденных последовательностей (включая исходную). На Рисунке 5 приведено его изображение. Скачать выравнивание можно отсюда.

Выравнивание заведомо негомологичных белков

Рисунок 5. Выравнивание гомологов .
Выравнивание получено с помощью сервиса COBALT, изображение — программы JalView. Окрашивание BLOSUM62, Conservation 70%.

Абсолютно консервативных позиций — 139, что составляет 35% от длины всего выравнивания (401); функционально консервативных колонок — 195 (49%).



[1] http://blast.ncbi.nlm.nih.gov/Blast.cgi

[2] Draft Genome Sequence of Magnetospirillum sp. Strain SO-1, a Freshwater Magnetotactic Bacterium Isolated from the Ol'khovka River, Russia.
Grouzdev DS1, Dziuba MV, Sukhacheva MS, Mardanov AV, Beletskiy AV, Kuznetsov BB, Skryabin KG.

Наверх