BLAST
BLAST (от Basic Local Alignment Search Tool) - набор программ для выравнивания белковых и нуклеотидных последовательностей. Изначально BLAST оперировал только с белковыми последовательностями, осуществляя поиск среди соответствующих датабаз. Но вскоре вышла и версия, работающая с нуклеотидными последовательностями. Появление промежуточной возможности преобразования нуклеотидных последовательностей в белковые, в соответствии с генетическим кодом позволило перекрестное сравнение между нуклеотидными и белковыми последовательностями.
BLAST сравнивает входную последовательность с последовательностями в базе данных, ищет сходные последовательности в базе данных и оценивает статистическую значимость находок.
1. Поиск гипотетических гомологов белка HUTP_BACSU (AC P10943) в разных банках.
Подаю на вход программе BLASTP код доступа изучаемого белка, провожу поиск гомологов в банке Swiss-Prot и заполняю первый столбец таблички. Затем провожу поиск по банкам PDB (Protein Data Bank proteins) и "nr" (Non-redundant protein sequences) и заполняю остальные столбцы (для этого изменяю значение параметра database, по умолчанию стоит банк "nr").
Таблица 1. Результаты поиска гипотетических гомологов белка HUTP_BACSU
Поиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
Лучшая находка (в принципе, должна соответствовать заданному белку) | |||
Accession | A7ZAE3.1 | 1VEA_A | 1VEA_A |
E-value | 9e-97 | 1e-103 | 5e-101 |
Вес (в битах) | 282 bits | 296 bits | 296 bits |
Процент идентичности | 93% | 99% | 99% |
Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10) | 11 | 2 | 44 |
"Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) | |||
Номер находки в списке описаний | 12 | 2 | 45 |
Accession | Q8GCJ0.1 | 1WMQ_A | YP_003665853.1 |
E-value | 1e-50 | 2e-102 | 1e-27 |
Вес (в битах) | 164 bits | 293 bits | 107 bits |
Процент идентичности | 59% | 99% | 68% |
Процент сходства | 79% | 100% | 87% |
Длина выравнивания | 142 | 147 | 69 |
Координаты выравнивания (от-до, в запросе и в находке) | в запросе: 8-148 в находке: 8-149 |
в запросе: 2-148 в находке: 1-147 |
в запросе: 80-148 в находке: 1-69 |
Число гэпов | 1 | 0 | 0 |
Исходный белок удалось найти в Swiss-Prot и "nr", где он выдается в первой строке списка схожик последовательностей. Записи с одинаковой последовательностью (часто таковыми являются, например, белки из разных штаммов одного вида бактерий) объединяются в одну и показаны в списке находок одной строкой. Так, в Swiss-Prot под "Accession" моего белка зааписаны еще 9, а в "nr" указанный в первом столбце таблицы находок "Accession" не совпадает с AC моего белка, но я нашла его в одном из девяти, объединенных в первую запись. Cтруктура белка в PDB не найдена.
Число явных гомологов (E-value < 1e-10) при поиске: "nr" (44) > Swiss-Prot (11) > PDB (2).
Всего находок (и E-value самой последней находки): Swiss-Prot - 25 (10.0), PDB - 4 (7.2), "nr" - 75 (9.6).
Число находок в моем случае лимитировано значением E-value, т.е. число находок во всех трех случаях меньше лимита по умолчанию - 100.
2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.
Для исследования предлагаются следующие таксоны:
- 'Eukaryota' (другое царство);
- 'Actinobacteria' (другой отдел того же царства бактерий);
- 'Clostridia' (другой класс того же отдела Firmicutes);
- 'Lactobacillales' (другой порядок того же класса Bacilli);
- 'Listeriaceae' (другое семейство того же порядка Bacillales);
- 'Geobacillus' (другой род того же семейства Bacillaceae);
- 'Bacillus anthracis' (другой вид того же рода).
Провожу поиск гомологов заданного белка по Swiss-Prot, при этом ввожу название таксона в окошко "Organism". Проверяю на наличие гипотетического гомолога (критерий: E-value < 0,001) в порядке приближения к 'Bacillus subtilis'. Первый такой гомолог найден уже в таксоне 'Eukaryota'.
Таблица 2
Поиск по Swiss-Prot | |
Accession | C0NJU0.1 |
E-value | 3e-04 |
Вес (в битах) | 32.3 bits |
Процент идентичности | 35% |
Процент сходства | 45% |
Длина выравнивания | 71 |
Координаты выравнивания (от-до, в запросе и в находке) | в запросе: 52-115, в находке: 136-205 |
Число гэпов | 8 |
3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
Выбираю одно из выравниваний BLASTp, полученных при выполнении предыдущего задания (белки HUTP_BACSU, AC P10943 и COQ4_AJECG, AC C0NJU0).
>sp|C0NJU0.1|COQ4_AJECG RecName: Full=Ubiquinone biosynthesis protein COQ4, mitochondrial; AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: Precursor gb|EEH08131.1| ubiquinone biosynthesis protein COQ4 [Ajellomyces capsulatus G186AR] Length=277 Sort alignments for this subject sequence by: E value Score Percent identity Query start position Subject start position Score = 32.3 bits (72), Expect = 2e-06, Method: Compositional matrix adjust. Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%) Query 52 AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F 104 A ++ K + YRE H YHA + L V GE+ L +LL GL F Sbjct 136 AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF 194 Query 105 AVLRGNPYESE 115 AV+R P E E Sbjct 195 AVMRLKPEEKE 205 Score = 15.4 bits (28), Expect = 0.82, Method: Compositional matrix adjust. Identities = 5/6 (83%), Positives = 6/6 (100%), Gaps = 0/6 (0%) Query 28 EELERD 33 E+LERD Sbjct 232 EQLERD 237
Сравниваю выравнивание, считая матрицей весов замен BLOSUM62, штраф за открытие гэпа, равным 11, а за продолжение - 1 (параметры, используемые по умолчанию в BLASTp):
а) с оптимальным частичным выравниванием.
Использую команду:
Получаю файл prot.water с частичным выравниванием:
HUTP_BACSU 52 AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GS 95 |.::....|......:.|||.|..||| :..|..|..||:.| .: COQ4_AJECG 136 AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANT 184 HUTP_BACSU 96 LLRTVGL-RFAVLRGNPYESE 115 ||...|| .|||:|..|.|.| COQ4_AJECG 185 LLPMTGLSMFAVMRLKPEEKE 205
Характеристики выравнивания:
Length: 71
Identity: 25/71 (35.2%)
Similarity: 32/71 (45.1%)
Gaps: 8/71 (11.3%)
Score: 70.0
б) с оптимальным полным выравниванием последовательностей тех же белков.
Использую команду:
Получаю файл prot.needle с полным выравниванием:
HUTP_BACSU 0 -------------------------------------------------- 0 COQ4_AJECG 1 MLTKRALRTTDPYRRVLSRGFSVLNRPSPNYPGHVPLTTLERGALAVGSA 50 HUTP_BACSU 1 ----------------------------------------MTLHKERRIG 10 ..|..:..|. COQ4_AJECG 51 IGSLINPRRADLIAALGEATATPYFIYRLRDVMLSDPTGRRILRNQPSIN 100 HUTP_BACSU 11 --RLSVLLLLNEAEES---TQVEELERDGWKVCLGKVGSMDAHKVVAAIE 55 .|||..|.:.:..: |.|:.|:|:| ||. ...|.:: COQ4_AJECG 101 SQTLSVEYLRSLSPNTVGRTYVDWLDREG-------VGP----DTRAKVQ 139 HUTP_BACSU 56 TASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRT 99 ....|......:.|||.|..||| :..|..|..||:.| .:||.. COQ4_AJECG 140 YIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPM 188 HUTP_BACSU 100 VGL-RFAVLRGNPYESE----AEGDWIAVSLYGTIGAPIKGLEHETFGVG 144 .|| .|||:|..|.|.| ....| ||.......|.|.....|..... COQ4_AJECG 189 TGLSMFAVMRLKPEEKERFWKLHLPW-AVRNGLASKAVINVYWEEQLERD 237 HUTP_BACSU 145 INHI------------------------------------ 148 ::.: COQ4_AJECG 238 VDELRKELGIEKPVDLREIRKIMRRQKKMAEEAAKTKKRY 277
Характеристики выравнивания:
Length: 290
Identity: 44/290 (15.2%)
Similarity: 61/290 (21.0%)
Gaps: 155/290 (53.4%)
Score: 34.0
Выравнивание - способ сказать какие остатки из двух последовательностей, предположительно, гомологичны - те, которые стоят в одной колонке. Если в колонке стоит буква и гэп, то предполагается, что для соответствующего остатка нет (или не найден) гомологичный в другой последовательности.
Если колонка первого выравнивания содержит те же остатки (или остаток и гэп), что и какая-то колонка второго выравнивания, то, значит, эта колонка согласована со вторым выравниванием. Те же - значит остатки с теми же номерами в последовательности
Мерой совпадения двух выравниваний служит процент согласованных колонок первого выравнивания относительно общего числа колонок: аналогично определяется этот процент для второго выравнивания. В случае сравнения локальных выравниваний или локального выравнивания и глобального буду ограничиваться выравниваниями фрагментов, входящих в оба выравнивания.
Программа BLASTp выдает два локальных варывнивания. Если сравнить выравнивания в needle и water, видно, что значения Score, проценты совпадения и сходства больше у оптимального частичного выравнивания, полученного c water, а наибольшая длина выравнивания - у оптимального полного, полученного с needle (причем, 53,4% составляют гэпы).
а) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального частичного выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115т в находке: 136-205.
Согласованных колонок - 71. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 71.
Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались целиком оптимальное частичное выравнивание и первая часть локального выравнивания, полученного в BLASTp.
б) Меру совпадения локального выравнивания, полученного в BLASTp, и оптимального глобального выравнивания рассчитаю, ограничиваясь участками: в запросе: 52-115, в находке: 136-205.
Согласованных колонок - 71. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 71.
Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 24,48% оптимального глобального выравнивание и целиком первая часть локального выравнивания, полученного в BLASTp.
Можно рассмотреть и вторую часть локального выравнивания, полученного в BLASTp. Тогда участки: в запросе: 28-33, в находке: 232-237.
Согласованных колонок - 6. Общее число колонок фрагмента первого выравнивания, а также и второго выравнивания равно 6.
Мера совпадения - 100% как для первого, так и для второго выравниваний. Т.е., сопоставления в двух выравниваниях одинаковы. При этом использовались приблизительно 2,06% оптимального глобального выравнивание и целиком вторая часть локального выравнивания, полученного в BLASTp.
Доп. 1. Дополняю страницу описаний программ, раздел "пакет EMBOSS".
Результат можно посомтреть, перейдя по ссылке EMBOSS: infoseq.
Доп. 2. Пробую менять в BLAST какие-либо параметры (гиперссылка "Algorithm parameters") и повторяю один из поисков, проделанных при выполнении обязательных упражнений.
Провожу поиск гомологов для своего белка в базе данных Metagenomic proteins (env_nr). Всего 8 находок, самая лучшая из них всего лишь удовлетворительна (E-value = 0.22) с 53% идентичности. Данная база данных содержит последовательности, принадлежащие еще не известным организмам.
Доп. 3. Находки с E-value больше 1.
Возьму к примеру находку при поиске в Swiss-Prot, для которой E-value оказалось больше 1, а именно, 1.2.
Полученное с BLASTp выравнивание:
>sp|C0NJU0.1|COQ4_AJECG RecName: Full=Ubiquinone biosynthesis protein COQ4, mitochondrial; AltName: Full=Coenzyme Q biosynthesis protein 4; Flags: Precursor Length=277 Score = 32.3 bits (72), Expect = 1.2, Method: Compositional matrix adjust. Identities = 25/71 (35%), Positives = 32/71 (45%), Gaps = 8/71 (11%) Query 52 AAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLL------GSLLRTVGLR-F 104 A ++ K + YRE H YHA + L V GE+ L +LL GL F Sbjct 136 AKVQYIDDKECAYVMQRYRECHDFYHA-ITGLPVVVEGEIALKTFEFANTLLPMTGLSMF 194 Query 105 AVLRGNPYESE 115 AV+R P E E Sbjct 195 AVMRLKPEEKE 205
В принципе, E-value=Kmn·e-λS, где S – Score (вес), m – длина исходной последовательности, n – размер базы данных (суммарная длина всех последовательностей), K и ? - параметры. Чем меньше E-value, тем больше значимость находки. Единичное же значение E-value говорит о том, что в базе данных возможна 1 случайная находка.
Ответ является ли последовательность гомологом белка не очевиден. Я думаю, что со значением E-value больше 1, длиной почти в два раза больше, чем у моего белка, и низкими процентами идентичности и сходства последовательность вряд ли будет гомологом белка, по крайней мере близким.
Доп. 4. Пробую другие интерфейсы к программе BLAST: на сайте EBI: http://www.ebi.ac.uk/Tools/sss/ncbiblast/ и на сайте Expasy: http://www.expasy.ch/tools/blast/.
EBI | Expasy | |
Достоинства | Выбор распределен по шагам.Больше датабаз для выбора (есть даже какая-то векторная) и возможность поиска сразу по нескольким датабазам одновременно. Больше параметров для настройки при поиске.Возможность оповещения по email.Результаты хранятся 7 дней. | Поиск более специализирован по датабазам.Возможность отправления результатов по email.Графическое представление выравниваний.Возможность просмотра последовательностей в соответствии с таксономией.Наличие формата для печати. |
Недостатки | Не работает с Accession белка.Отсутствует графическое представление выравнивания.Выравнивания изначально не показываются и интуитивно непонятно как их посмотреть. | Неудобный интерфейс. Выбор датабазы, на мой взгляд занимает, много времени на поиск нужной вкладки. Более длительный процесс поиска. |
© Eugenia Prokhorova 2011