BLAST

BLAST (от Basic Local Alignment Search Tool) - набор программ для выравнивания белковых и нуклеотидных последовательностей. Изначально BLAST оперировал только с белковыми последовательностями, осуществляя поиск среди соответствующих датабаз. Но вскоре вышла и версия, работающая с нуклеотидными последовательностями. Появление промежуточной возможности преобразования нуклеотидных последовательностей в белковые, в соответствии с генетическим кодом позволило перекрестное сравнение между нуклеотидными и белковыми последовательностями.

BLAST сравнивает входную последовательность с последовательностями в базе данных, ищет сходные последовательности в базе данных и оценивает статистическую значимость находок.

1. Поиск гипотетических гомологов белка HUTP_BACSU (AC P10943) в разных банках.

Подаю на вход программе BLASTP код доступа изучаемого белка, провожу поиск гомологов в банке Swiss-Prot и заполняю первый столбец таблички. Затем провожу поиск по банкам PDB (Protein Data Bank proteins) и "nr" (Non-redundant protein sequences) и заполняю остальные столбцы (для этого изменяю значение параметра database, по умолчанию стоит банк "nr").

Таблица 1. Результаты поиска гипотетических гомологов белка HUTP_BACSU

	Поиск по Swiss-Prot	Поиск по PDB	Поиск по "nr"
Лучшая находка (в принципе, должна соответствовать заданному белку)
Accession	A7ZAE3.1	1VEA_A	1VEA_A
E-value	9e-97	1e-103	5e-101
Вес (в битах)	282 bits	296 bits	296 bits
Процент идентичности	93%	99%	99%
Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)	11	2	44
"Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний	12	2	45
Accession	Q8GCJ0.1	1WMQ_A	YP_003665853.1
E-value	1e-50	2e-102	1e-27
Вес (в битах)	164 bits	293 bits	107 bits
Процент идентичности	59%	99%	68%
Процент сходства	79%	100%	87%
Длина выравнивания	142	147	69
Координаты выравнивания (от-до, в запросе и в находке)	в запросе: 8-148 в находке: 8-149	в запросе: 2-148 в находке: 1-147	в запросе: 80-148 в находке: 1-69
Число гэпов	1	0	0

Исходный белок удалось найти в Swiss-Prot и "nr", где он выдается в первой строке списка схожик последовательностей. Записи с одинаковой последовательностью (часто таковыми являются, например, белки из разных штаммов одного вида бактерий) объединяются в одну и показаны в списке находок одной строкой. Так, в Swiss-Prot под "Accession" моего белка зааписаны еще 9, а в "nr" указанный в первом столбце таблицы находок "Accession" не совпадает с AC моего белка, но я нашла его в одном из девяти, объединенных в первую запись. Cтруктура белка в PDB не найдена.

Число явных гомологов (E-value < 1e-10) при поиске: "nr" (44) > Swiss-Prot (11) > PDB (2).

Всего находок (и E-value самой последней находки): Swiss-Prot - 25 (10.0), PDB - 4 (7.2), "nr" - 75 (9.6).

Число находок в моем случае лимитировано значением E-value, т.е. число находок во всех трех случаях меньше лимита по умолчанию - 100.

2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Для исследования предлагаются следующие таксоны:

'Eukaryota' (другое царство);
'Actinobacteria' (другой отдел того же царства бактерий);
'Clostridia' (другой класс того же отдела Firmicutes);
'Lactobacillales' (другой порядок того же класса Bacilli);
'Listeriaceae' (другое семейство того же порядка Bacillales);
'Geobacillus' (другой род того же семейства Bacillaceae);
'Bacillus anthracis' (другой вид того же рода).

Провожу поиск гомологов заданного белка по Swiss-Prot, при этом ввожу название таксона в окошко "Organism". Проверяю на наличие гипотетического гомолога (критерий: E-value < 0,001) в порядке приближения к 'Bacillus subtilis'. Первый такой гомолог найден уже в таксоне 'Eukaryota'.

Таблица 2

	Поиск по Swiss-Prot
Accession	C0NJU0.1
E-value	3e-04
Вес (в битах)	32.3 bits
Процент идентичности	35%
Процент сходства	45%
Длина выравнивания	71
Координаты выравнивания (от-до, в запросе и в находке)	в запросе: 52-115, в находке: 136-205
Число гэпов	8

3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Выбираю одно из выравниваний BLASTp, полученных при выполнении предыдущего задания (белки HUTP_BACSU, AC P10943 и COQ4_AJECG, AC C0NJU0).

>sp|C0NJU0.1|COQ4_AJECG  RecName: Full=Ubiquinone biosynthesis protein COQ4, 
mitochondrial; 
AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: 
Precursor
 gb|EEH08131.1|  ubiquinone biosynthesis protein COQ4 [Ajellomyces capsulatus 
G186AR]
Length=277


                        Sort alignments for this subject sequence by:
                        E value  Score  Percent identity
                        Query start position  Subject start position
 Score = 32.3 bits (72),  Expect = 2e-06, Method: Compositional matrix adjust.
 Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%)

Query  52   AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F  104
            A ++    K      + YRE H  YHA +  L  V  GE+ L       +LL   GL  F
Sbjct  136  AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF  194

Query  105  AVLRGNPYESE  115
            AV+R  P E E
Sbjct  195  AVMRLKPEEKE  205


 Score = 15.4 bits (28),  Expect = 0.82, Method: Compositional matrix adjust.
 Identities = 5/6 (83%), Positives = 6/6 (100%), Gaps = 0/6 (0%)

Query  28   EELERD  33
            E+LERD
Sbjct  232  EQLERD  237

Сравниваю выравнивание, считая матрицей весов замен BLOSUM62, штраф за открытие гэпа, равным 11, а за продолжение - 1 (параметры, используемые по умолчанию в BLASTp):

а) с оптимальным частичным выравниванием.

Использую команду:

water sw:p10943 sw:C0NJU0 prot.water -gapopen 11 -gapextend 1

Получаю файл prot.water с частичным выравниванием:

 HUTP_BACSU        52 AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GS     95
                       |.::....|......:.|||.|..||| :..|..|..||:.|      .:
  COQ4_AJECG       136 AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANT    184

  HUTP_BACSU        96 LLRTVGL-RFAVLRGNPYESE    115
                       ||...|| .|||:|..|.|.|
  COQ4_AJECG       185 LLPMTGLSMFAVMRLKPEEKE    205

Характеристики выравнивания:

Length: 71

Identity: 25/71 (35.2%)

Similarity: 32/71 (45.1%)

Gaps: 8/71 (11.3%)

Score: 70.0

б) с оптимальным полным выравниванием последовательностей тех же белков.

Использую команду:

needle sw:p10943 sw:C0NJU0 prot.needle -gapopen 11 -gapextend 1

Получаю файл prot.needle с полным выравниванием:

 HUTP_BACSU         0 --------------------------------------------------      0
                                                                       
  COQ4_AJECG         1 MLTKRALRTTDPYRRVLSRGFSVLNRPSPNYPGHVPLTTLERGALAVGSA     50

  HUTP_BACSU         1 ----------------------------------------MTLHKERRIG     10
                                                               ..|..:..|.
  COQ4_AJECG        51 IGSLINPRRADLIAALGEATATPYFIYRLRDVMLSDPTGRRILRNQPSIN    100
  
  HUTP_BACSU        11 --RLSVLLLLNEAEES---TQVEELERDGWKVCLGKVGSMDAHKVVAAIE     55
                         .|||..|.:.:..:   |.|:.|:|:|       ||.    ...|.::
  COQ4_AJECG       101 SQTLSVEYLRSLSPNTVGRTYVDWLDREG-------VGP----DTRAKVQ    139

  HUTP_BACSU        56 TASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRT     99
                       ....|......:.|||.|..||| :..|..|..||:.|      .:||..
  COQ4_AJECG       140 YIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPM    188

  HUTP_BACSU       100 VGL-RFAVLRGNPYESE----AEGDWIAVSLYGTIGAPIKGLEHETFGVG    144
                       .|| .|||:|..|.|.|    ....| ||.......|.|.....|.....
  COQ4_AJECG       189 TGLSMFAVMRLKPEEKERFWKLHLPW-AVRNGLASKAVINVYWEEQLERD    237

  HUTP_BACSU       145 INHI------------------------------------    148
                       ::.:                                    
  COQ4_AJECG       238 VDELRKELGIEKPVDLREIRKIMRRQKKMAEEAAKTKKRY    277

Характеристики выравнивания:

Length: 290

Identity: 44/290 (15.2%)

Similarity: 61/290 (21.0%)

Gaps: 155/290 (53.4%)

Score: 34.0

Выравнивание - способ сказать какие остатки из двух последовательностей, предположительно, гомологичны - те, которые стоят в одной колонке. Если в колонке стоит буква и гэп, то предполагается, что для соответствующего остатка нет (или не найден) гомологичный в другой последовательности.

Если колонка первого выравнивания содержит те же остатки (или остаток и гэп), что и какая-то колонка второго выравнивания, то, значит, эта колонка согласована со вторым выравниванием. Те же - значит остатки с теми же номерами в последовательности

Мерой совпадения двух выравниваний служит процент согласованных колонок первого выравнивания относительно общего числа колонок: аналогично определяется этот процент для второго выравнивания. В случае сравнения локальных выравниваний или локального выравнивания и глобального буду ограничиваться выравниваниями фрагментов, входящих в оба выравнивания.

Программа BLASTp выдает два локальных варывнивания. Если сравнить выравнивания в needle и water, видно, что значения Score, проценты совпадения и сходства больше у оптимального частичного выравнивания, полученного c water, а наибольшая длина выравнивания - у оптимального полного, полученного с needle (причем, 53,4% составляют гэпы).

а) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального частичного выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115т в находке: 136-205.

Согласованных колонок - 71. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 71.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались целиком оптимальное частичное выравнивание и первая часть локального выравнивания, полученного в BLASTp.

б) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального глобального выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115, в находке: 136-205.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 24,48% оптимального глобального выравнивание и целиком первая часть локального выравнивания, полученного в BLASTp.

Можно рассмотреть и вторую часть локального выравнивания, полученного в BLASTp. Тогда участки: в запросе: 28-33, в находке: 232-237.

Согласованных колонок - 6. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 6.

Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 2,06% оптимального глобального выравнивание и целиком вторая часть локального выравнивания, полученного в BLASTp.

Доп. 1. Дополняю страницу описаний программ, раздел "пакет EMBOSS".

Результат можно посомтреть, перейдя по ссылке EMBOSS: infoseq.

Доп. 2. Пробую менять в BLAST какие-либо параметры (гиперссылка "Algorithm parameters") и повторяю один из поисков, проделанных при выполнении обязательных упражнений.

Провожу поиск гомологов для своего белка в базе данных Metagenomic proteins (env_nr). Всего 8 находок, самая лучшая из них всего лишь удовлетворительна (E-value = 0.22) с 53% идентичности. Данная база данных содержит последовательности, принадлежащие еще не известным организмам.

Доп. 3. Находки с E-value больше 1.

Возьму к примеру находку при поиске в Swiss-Prot, для которой E-value оказалось больше 1, а именно, 1.2.

Полученное с BLASTp выравнивание:

>sp|C0NJU0.1|COQ4_AJECG  RecName: Full=Ubiquinone biosynthesis protein COQ4, 
mitochondrial; 
AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: 
Precursor
Length=277

 Score = 32.3 bits (72),  Expect = 1.2, Method: Compositional matrix adjust.
 Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%)

Query  52   AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F  104
            A ++    K      + YRE H  YHA +  L  V  GE+ L       +LL   GL  F
Sbjct  136  AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF  194

Query  105  AVLRGNPYESE  115
            AV+R  P E E
Sbjct  195  AVMRLKPEEKE  205

В принципе, E-value=Kmn·e^-λS, где S – Score (вес), m – длина исходной последовательности, n – размер базы данных (суммарная длина всех последовательностей), K и ? - параметры. Чем меньше E-value, тем больше значимость находки. Единичное же значение E-value говорит о том, что в базе данных возможна 1 случайная находка.

Ответ является ли последовательность гомологом белка не очевиден. Я думаю, что со значением E-value больше 1, длиной почти в два раза больше, чем у моего белка, и низкими процентами идентичности и сходства последовательность вряд ли будет гомологом белка, по крайней мере близким.

Доп. 4. Пробую другие интерфейсы к программе BLAST: на сайте EBI: http://www.ebi.ac.uk/Tools/sss/ncbiblast/ и на сайте Expasy: http://www.expasy.ch/tools/blast/.

EBI

Expasy

Достоинства

Выбор распределен по шагам.

Больше датабаз для выбора (есть даже какая-то векторная) и возможность поиска сразу по нескольким датабазам одновременно.

Больше параметров для настройки при поиске.

Возможность оповещения по email.

Результаты хранятся 7 дней.

Поиск более специализирован по датабазам.

Возможность отправления результатов по email.

Графическое представление выравниваний.

Возможность просмотра последовательностей в соответствии с таксономией.

Наличие формата для печати.

Недостатки

Не работает с Accession белка.

Отсутствует графическое представление выравнивания.

Выравнивания изначально не показываются и интуитивно непонятно как их посмотреть.

Неудобный интерфейс.

Выбор датабазы, на мой взгляд занимает, много времени на поиск нужной вкладки.

Более длительный процесс поиска.