BLAST

BLAST (от Basic Local Alignment Search Tool) - набор программ для выравнивания белковых и нуклеотидных последовательностей. Изначально BLAST оперировал только с белковыми последовательностями, осуществляя поиск среди соответствующих датабаз. Но вскоре вышла и версия, работающая с нуклеотидными последовательностями. Появление промежуточной возможности преобразования нуклеотидных последовательностей в белковые, в соответствии с генетическим кодом позволило перекрестное сравнение между нуклеотидными и белковыми последовательностями.

BLAST сравнивает входную последовательность с последовательностями в базе данных, ищет сходные последовательности в базе данных и оценивает статистическую значимость находок.

1. Поиск гипотетических гомологов белка HUTP_BACSU (AC P10943) в разных банках.

Подаю на вход программе BLASTP код доступа изучаемого белка, провожу поиск гомологов в банке Swiss-Prot и заполняю первый столбец таблички. Затем провожу поиск по банкам PDB (Protein Data Bank proteins) и "nr" (Non-redundant protein sequences) и заполняю остальные столбцы (для этого изменяю значение параметра database, по умолчанию стоит банк "nr").

Таблица 1. Результаты поиска гипотетических гомологов белка HUTP_BACSU

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"
Лучшая находка (в принципе, должна соответствовать заданному белку)
Accession A7ZAE3.1 1VEA_A 1VEA_A
E-value 9e-97 1e-103 5e-101
Вес (в битах) 282 bits 296 bits 296 bits
Процент идентичности 93% 99% 99%
Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10) 11 2 44
"Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 12 2 45
Accession Q8GCJ0.1 1WMQ_A YP_003665853.1
E-value 1e-50 2e-102 1e-27
Вес (в битах) 164 bits 293 bits 107 bits
Процент идентичности 59% 99% 68%
Процент сходства 79% 100% 87%
Длина выравнивания 142 147 69
Координаты выравнивания (от-до, в запросе и в находке) в запросе: 8-148

в находке: 8-149

в запросе: 2-148

в находке: 1-147

в запросе: 80-148

в находке: 1-69

Число гэпов 1 0 0

Исходный белок удалось найти в Swiss-Prot и "nr", где он выдается в первой строке списка схожик последовательностей. Записи с одинаковой последовательностью (часто таковыми являются, например, белки из разных штаммов одного вида бактерий) объединяются в одну и показаны в списке находок одной строкой. Так, в Swiss-Prot под "Accession" моего белка зааписаны еще 9, а в "nr" указанный в первом столбце таблицы находок "Accession" не совпадает с AC моего белка, но я нашла его в одном из девяти, объединенных в первую запись. Cтруктура белка в PDB не найдена.

Число явных гомологов (E-value < 1e-10) при поиске: "nr" (44) > Swiss-Prot (11) > PDB (2).

Всего находок (и E-value самой последней находки): Swiss-Prot - 25 (10.0), PDB - 4 (7.2), "nr" - 75 (9.6).

Число находок в моем случае лимитировано значением E-value, т.е. число находок во всех трех случаях меньше лимита по умолчанию - 100.

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Для исследования предлагаются следующие таксоны:

  • 'Eukaryota' (другое царство);
  • 'Actinobacteria' (другой отдел того же царства бактерий);
  • 'Clostridia' (другой класс того же отдела Firmicutes);
  • 'Lactobacillales' (другой порядок того же класса Bacilli);
  • 'Listeriaceae' (другое семейство того же порядка Bacillales);
  • 'Geobacillus' (другой род того же семейства Bacillaceae);
  • 'Bacillus anthracis' (другой вид того же рода).

Провожу поиск гомологов заданного белка по Swiss-Prot, при этом ввожу название таксона в окошко "Organism". Проверяю на наличие гипотетического гомолога (критерий: E-value < 0,001) в порядке приближения к 'Bacillus subtilis'. Первый такой гомолог найден уже в таксоне 'Eukaryota'.

Таблица 2

Поиск по Swiss-Prot
Accession C0NJU0.1
E-value 3e-04
Вес (в битах) 32.3 bits
Процент идентичности 35%
Процент сходства 45%
Длина выравнивания 71
Координаты выравнивания (от-до, в запросе и в находке) в запросе: 52-115, в находке: 136-205
Число гэпов 8

3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Выбираю одно из выравниваний BLASTp, полученных при выполнении предыдущего задания (белки HUTP_BACSU, AC P10943 и COQ4_AJECG, AC C0NJU0).

>sp|C0NJU0.1|COQ4_AJECG  RecName: Full=Ubiquinone biosynthesis protein COQ4, 
mitochondrial; 
AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: 
Precursor
 gb|EEH08131.1|  ubiquinone biosynthesis protein COQ4 [Ajellomyces capsulatus 
G186AR]
Length=277


                        Sort alignments for this subject sequence by:
                        E value  Score  Percent identity
                        Query start position  Subject start position
 Score = 32.3 bits (72),  Expect = 2e-06, Method: Compositional matrix adjust.
 Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%)

Query  52   AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F  104
            A ++    K      + YRE H  YHA +  L  V  GE+ L       +LL   GL  F
Sbjct  136  AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF  194

Query  105  AVLRGNPYESE  115
            AV+R  P E E
Sbjct  195  AVMRLKPEEKE  205


 Score = 15.4 bits (28),  Expect = 0.82, Method: Compositional matrix adjust.
 Identities = 5/6 (83%), Positives = 6/6 (100%), Gaps = 0/6 (0%)

Query  28   EELERD  33
            E+LERD
Sbjct  232  EQLERD  237

Сравниваю выравнивание, считая матрицей весов замен BLOSUM62, штраф за открытие гэпа, равным 11, а за продолжение - 1 (параметры, используемые по умолчанию в BLASTp):

а) с оптимальным частичным выравниванием.

Использую команду:

water sw:p10943 sw:C0NJU0 prot.water -gapopen 11 -gapextend 1

Получаю файл prot.water с частичным выравниванием:

 HUTP_BACSU        52 AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GS     95
                       |.::....|......:.|||.|..||| :..|..|..||:.|      .:
  COQ4_AJECG       136 AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANT    184

  HUTP_BACSU        96 LLRTVGL-RFAVLRGNPYESE    115
                       ||...|| .|||:|..|.|.|
  COQ4_AJECG       185 LLPMTGLSMFAVMRLKPEEKE    205

Характеристики выравнивания:

Length: 71

Identity: 25/71 (35.2%)

Similarity: 32/71 (45.1%)

Gaps: 8/71 (11.3%)

Score: 70.0

б) с оптимальным полным выравниванием последовательностей тех же белков.

Использую команду:

needle sw:p10943 sw:C0NJU0 prot.needle -gapopen 11 -gapextend 1

Получаю файл prot.needle с полным выравниванием:

 HUTP_BACSU         0 --------------------------------------------------      0
                                                                       
  COQ4_AJECG         1 MLTKRALRTTDPYRRVLSRGFSVLNRPSPNYPGHVPLTTLERGALAVGSA     50

  HUTP_BACSU         1 ----------------------------------------MTLHKERRIG     10
                                                               ..|..:..|.
  COQ4_AJECG        51 IGSLINPRRADLIAALGEATATPYFIYRLRDVMLSDPTGRRILRNQPSIN    100
  
  HUTP_BACSU        11 --RLSVLLLLNEAEES---TQVEELERDGWKVCLGKVGSMDAHKVVAAIE     55
                         .|||..|.:.:..:   |.|:.|:|:|       ||.    ...|.::
  COQ4_AJECG       101 SQTLSVEYLRSLSPNTVGRTYVDWLDREG-------VGP----DTRAKVQ    139

  HUTP_BACSU        56 TASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRT     99
                       ....|......:.|||.|..||| :..|..|..||:.|      .:||..
  COQ4_AJECG       140 YIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPM    188

  HUTP_BACSU       100 VGL-RFAVLRGNPYESE----AEGDWIAVSLYGTIGAPIKGLEHETFGVG    144
                       .|| .|||:|..|.|.|    ....| ||.......|.|.....|.....
  COQ4_AJECG       189 TGLSMFAVMRLKPEEKERFWKLHLPW-AVRNGLASKAVINVYWEEQLERD    237

  HUTP_BACSU       145 INHI------------------------------------    148
                       ::.:                                    
  COQ4_AJECG       238 VDELRKELGIEKPVDLREIRKIMRRQKKMAEEAAKTKKRY    277

Характеристики выравнивания:

Length: 290

Identity: 44/290 (15.2%)

Similarity: 61/290 (21.0%)

Gaps: 155/290 (53.4%)

Score: 34.0

Выравнивание - способ сказать какие остатки из двух последовательностей, предположительно, гомологичны - те, которые стоят в одной колонке. Если в колонке стоит буква и гэп, то предполагается, что для соответствующего остатка нет (или не найден) гомологичный в другой последовательности.

Если колонка первого выравнивания содержит те же остатки (или остаток и гэп), что и какая-то колонка второго выравнивания, то, значит, эта колонка согласована со вторым выравниванием. Те же - значит остатки с теми же номерами в последовательности

Мерой совпадения двух выравниваний служит процент согласованных колонок первого выравнивания относительно общего числа колонок: аналогично определяется этот процент для второго выравнивания. В случае сравнения локальных выравниваний или локального выравнивания и глобального буду ограничиваться выравниваниями фрагментов, входящих в оба выравнивания.

Программа BLASTp выдает два локальных варывнивания. Если сравнить выравнивания в needle и water, видно, что значения Score, проценты совпадения и сходства больше у оптимального частичного выравнивания, полученного c water, а наибольшая длина выравнивания - у оптимального полного, полученного с needle (причем, 53,4% составляют гэпы).

а) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального частичного выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115т в находке: 136-205.

Согласованных колонок - 71. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 71.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались целиком оптимальное частичное выравнивание и первая часть локального выравнивания, полученного в BLASTp.

б) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального глобального выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115, в находке: 136-205.

Согласованных колонок - 71. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 71.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 24,48% оптимального глобального выравнивание и целиком первая часть локального выравнивания, полученного в BLASTp.

Можно рассмотреть и вторую часть локального выравнивания, полученного в BLASTp. Тогда участки: в запросе: 28-33, в находке: 232-237.

Согласованных колонок - 6. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 6.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 2,06% оптимального глобального выравнивание и целиком вторая часть локального выравнивания, полученного в BLASTp.

Доп. 1. Дополняю страницу описаний программ, раздел "пакет EMBOSS".

Результат можно посомтреть, перейдя по ссылке EMBOSS: infoseq.

Доп. 2. Пробую менять в BLAST какие-либо параметры (гиперссылка "Algorithm parameters") и повторяю один из поисков, проделанных при выполнении обязательных упражнений.

Провожу поиск гомологов для своего белка в базе данных Metagenomic proteins (env_nr). Всего 8 находок, самая лучшая из них всего лишь удовлетворительна (E-value = 0.22) с 53% идентичности. Данная база данных содержит последовательности, принадлежащие еще не известным организмам.

Доп. 3. Находки с E-value больше 1.

Возьму к примеру находку при поиске в Swiss-Prot, для которой E-value оказалось больше 1, а именно, 1.2.

Полученное с BLASTp выравнивание:

>sp|C0NJU0.1|COQ4_AJECG  RecName: Full=Ubiquinone biosynthesis protein COQ4, 
mitochondrial; 
AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: 
Precursor
Length=277

 Score = 32.3 bits (72),  Expect = 1.2, Method: Compositional matrix adjust.
 Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%)

Query  52   AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F  104
            A ++    K      + YRE H  YHA +  L  V  GE+ L       +LL   GL  F
Sbjct  136  AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF  194

Query  105  AVLRGNPYESE  115
            AV+R  P E E
Sbjct  195  AVMRLKPEEKE  205

В принципе, E-value=Kmn·e-λS, где S – Score (вес), m – длина исходной последовательности, n – размер базы данных (суммарная длина всех последовательностей), K и ? - параметры. Чем меньше E-value, тем больше значимость находки. Единичное же значение E-value говорит о том, что в базе данных возможна 1 случайная находка.

Ответ является ли последовательность гомологом белка не очевиден. Я думаю, что со значением E-value больше 1, длиной почти в два раза больше, чем у моего белка, и низкими процентами идентичности и сходства последовательность вряд ли будет гомологом белка, по крайней мере близким.

Доп. 4. Пробую другие интерфейсы к программе BLAST: на сайте EBI: http://www.ebi.ac.uk/Tools/sss/ncbiblast/ и на сайте Expasy: http://www.expasy.ch/tools/blast/.

EBI Expasy
Достоинства Выбор распределен по шагам.

Больше датабаз для выбора (есть даже какая-то векторная) и возможность поиска сразу по нескольким датабазам одновременно.

Больше параметров для настройки при поиске.

Возможность оповещения по email.

Результаты хранятся 7 дней.
Поиск более специализирован по датабазам.

Возможность отправления результатов по email.

Графическое представление выравниваний.

Возможность просмотра последовательностей в соответствии с таксономией.

Наличие формата для печати.
Недостатки Не работает с Accession белка.

Отсутствует графическое представление выравнивания.

Выравнивания изначально не показываются и интуитивно непонятно как их посмотреть.
Неудобный интерфейс.

Выбор датабазы, на мой взгляд занимает, много времени на поиск нужной вкладки.

Более длительный процесс поиска.


© Eugenia Prokhorova 2011