BLAST

Решалась задача: поиск гомологов белка тимидилат синтазы (thymidylate synthase) из организма Deinococcus maricopensis.
Поиск вёлся по базе данных Refseq_protein, диапазон поиска - 5000 результатов, максимальное E-value по умолчанию - 10, хотя вероятность гомологии таких белков очень мала.
Было найдено 2387 находок. Они распределялись по организмам следующим образом:
    прокариоты2310
    вирусы71
    эукариоты6
Изначально было взято 3 находки: первая (лучшая), случайная из середины, и последняя (худшая). Однако затем оказалось, что первая находка полностью совпадает с исходным белком, за исключением небольшого (относительно всей длины белка) участка в начале и содержится в том же организме. Поэтому была добавлена вторая находка, принадлежащая другому организму.
Можно заметить, что процент идентичных остатков в "худшей" находке превышает данный параметр для находки из середины. Это объясняется тем, что в последней находки очень маленький участок последовательности имеет сходство с запросом, но относительно длины этого участка в нём содержится много идентичных остатков.
    Информация о находках
    Код доступа Длина bit score E-value % идентичных остатков % сходных остатков
    WP_043817474.1 216 451 2e-158 99 100
    WP_019588747.1 234 393 2e-135 83 90
    YP_003084270.1 317 86,7 1e-16 34 48
    YP_004956872.1 218 36,6 9,9 44 52
Зададим критерий гомологии: E-value < 0,001, query cover > 70% (т.е. не менее 70% запроса вошло в выравнивание). Этому критерию удовлетворяют 1570 находок. Однако у следующих двух находок E-value имеет достаточно высокое значение, чтобы считать их гомологичными (гораздо выше, чем у последних находок с 70% покрывания запроса).

Сравнение находок по всему банку белков и по бактериям

Я добавила в параметры поиска - поиск только по бактериальным белкам (с порогом E-value < 0,001). Было найдено 1632 белка. Я взяла находку, которая встречалась при прошлом запуске blast. Score для неё не изменился, как и процент идентичных колонок. А вот E-value уменьшился с 5e-134 до 4e-134. Но это та же находка, что и при предыдущем запуске, т.к. она имеет такой же код доступа (Accession number). E-value оценивает не похожесть находки на заданный белок, а количество находок, имеющих больший score. А раз я уменьшила диапазон поиска и общее количество находок стало меньше, то и E-value уменьшился. При этом остальные параметры не изменились, поскольку выравнивание данной последовательности относительно заданного белка не изменилось.
Для этой же находки (она принадлежит организму Deinococcus phoenicis) я построила карту локального сходства (Рис.1). Она указывает на сходство участков 5-231 искомого белка и 22-249 выбранной находки.
Рис.1

Поиск по своей базе данных

Я создала базу данных из выравнивания, которое использовала для освоения программы Jalview. Был проведён поиск по моей базе данных белка тимидилат синтазы (thymidylate synthase). В результате похожие мотивы были найдены в двух последовательностях.
    Находки по своей базе данных
    Код доступа Длина bit score E-value % идентичных остатков % сходных остатков
    ACEAZ 79 13.5 7,2 31 63
    DESRM 78 13.5 7,6 44 63
Можно заметить, что, не смотря на неродственность этих белков, были найдены участки с идентичными и сходными остатками. Соответственно, эти критерии не могут быть использованы для установления гомологии. С другой стороны, bit score для этих белков гораздо ниже, чем у находок по базе Refseq proteins. Этот критерий может быть показателем гомологии, т.к. он учитывает длину участка, который покрывается выравниванием с заданным белком. Также сильно различаются значения E-value - он гораздо больше (для лучших находок 2e-158 против 7,2 для поиска по моей базе). Поэтому E-value в некоторых случаях может свидетельствовать о родственности белков, но его значение сильно зависит от размера базы данных. Поэтому нельзя полагаться только на E-value при определении гомологии.
«Назад
Дальше»

© Колупаева А.Л. 2014