<< BACK

Поиск по сходству.
BLAST, E-value

Задание №1

Эта работа посвящена ознакомлению с BLAST - программным обеспечением, используемым для поиска областей сходства между последовательностями. В данном задании я искал последовательности, сходные с моим белком AKC27754.1, с помощью алгоритма BLAST в базах данных Swiss-Prot и Refseq. BLAST строит локальные выравнивания последовательности запросов и любой другой последовательности в конкретном банке данных с помощью алгоритма и выводит таблицу белков, локальные выравнивания и их «качество» с точки зрения сходства и соответствия. Мной было выбрано 9 последовательностей, которые в разной степени сходны с моим белком,выбрал семь хитов с e-значением менее 1,0E-05, один из которых больше 0,001, а последний с значением математического ожидания больше 1, построил множественное выравнивание, сравнил параметры сходства. Они представлены в Таблице 1. На рисунке 1 - множественное выравнивание с блоками консервативных участков гомологии.


Taблица 1. Свойства нескольких функций BLAST

IDНазваниеCoverage, %Identity, %E-valueГомологичность
WP_082103023.1MarR family transcriptional regulator10078,921,03E-89Да
WP_059657827.1MarR family transcriptional regulator8568,312,79E-63Да
WP_048934863.1MarR family transcriptional regulator8160,296,54E-49Да
WP_057097023.1MarR family transcriptional regulator8144,448,07E-38Да
WP_075910851.1MarR family transcriptional regulator7545,241,97E-35Да
WP_055501547.1MarR family transcriptional regulator7439,022,08E-19Да
P67748.1HTH-type transcriptional regulator Mb29116634,553,06E-13Да
P42195.2HTH-type transcriptional regulator PecS8026,850,006Нет
A1RWC8.1Riboflavin kinase3029,411,7Нет

В выравнивании я отметил три блока, в первые два из них я внес все последовательности, кроме двух последних. В третий блок я решил внести все последовательности. Превые 6 последовательностей являюся гомологами моего белка, так как входят во все блоки c моим белком, имеют значительные параметры идентичности и "покрытия" последовательности, происходят из родственных организмов, и, видимо, имеют одинаковую функцию. Седьмая последовательность хоть и имеет более низкий процент идентичности, все-таки может быть гомологична моему белку.
Последовательность P42195.2 я решил не относить к гомологичным с AKC27754.1, хотя она и входит в один выделенный мной блок. У этой последовательности нет абсолютной консервативности в позициях 57, 63, 72 выравнивания в первом блоке, в позициях 87, 88, 95, 96, 101 второго блока, поэтому я не посчитал возможным включить ее в эти блоки. Также, низкий процент идентичности не говорит о гомологии между последовательностями, а схожее название может быть следствием неправильного определения функции: этот белок не был физически обнаружен, а лишь предсказан. Напротив нескольких его участков в остальных последовательностях стоят индели.
Последняя последовательность, кодирующая рибофлавинкиназу, ввиду малой идентичности, малого вхождения в выравнивание, и иной функции не является гомологом моего белка, а совпадение по последнему блоку не обязательно следствие их полной гомологии.


Рис 1. Множественное выравнивание последовательностей. Предполагаемые гомологичные блоки.




Задание №2

Для изучения гомологичных доменов в разных белках мной был выбран домен цинковый палец. Этот домен имеет мотивы Cys-X2-Cys и His-X-His, связывающие ионы цинка. Он, как предполагается, отвечает за белок-белковые взаимодействия. Я выбрал последовательности H0ZU45_TAEGU (103 а.к.о.) и T0RV22_9STRA (473 а.к.о.) с неустановленными функциями, запустил BLAST align two sequence с парметрами Word size = 2 и E-value = 1,0E-5. Полученная карта сходства представлена на рисунке 2. По найденным участкам сходства я построил выравнивание, представлено на рисунке 2.


Рис 2.Локальное картирование


Рис.3 Выравнивание участков сходства.


Из карты сходства видно, что в последовательности H0ZU45_TAEGU присутствует участок, трижды встречающийся во второй последовательности. В выравнивании он очень хорошо заметен, только в этих позициях есть абсолютно консервативные позиции. Видны два мотива Cys-X2-Cys. На карте сходства я отграничил эти участки; другие части схожих участков, видимо, менее консервативны, но, судя по находкам могут являться частью домена. В них также я выделил делецию в первой последовательности зеленым и во второй крысным.
На самом деле, во второй последовательности присутствует 4 цинк-связывающих домена, но на карте сходства четвертый можно найти только с E-value = 1,0E-4 и больше. Этот участок имеет схожую длину и идентичное положение цистеинов. Таким образом, не всегда можно найти одинаковае домены, устанавливая маленькое E-value. И, если мои предположения верны, можно еще сильнее сократить вероятную область консервативности, опираясь на четвертую находку, ограниченную цистеиновыми мотивами.


Рис.4 Выравнивание участков сходства с меньшим E-value.