![]() |
||||
|
1). Поиск гипотетических гомологов изучаемого белка BCCP_ECOLI в разных БД | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Результаты поиска гипотетических гомологов белка BCCP_ECOLI
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Таким образом, в SwissProt и nr была найдена полная последовательность белка, а в PDB лишь часть его последовательности. Выравнивание белка с самим собой в SwissProt и nr одинаково за исключением значения E-value. Это значение рассчитывается по формуле E = l*L*K*e-λS, где l - длина последовательности, L - объем банка данных, S - вес последовательности, λ и K - параметры системы подсчета и размера поискового пространства соответственно. В этих двух выравниваниях базы данных различаются, различается и их объем: nr объединяет в себе многие базы, в т.ч. и SwissProt, и PDB, следовательно, ее объем больше и e-value должно получаться больше ( в данном случае в 10 раз больше).
Число потенциальных гомологов белка, найденных в разных базах данных, различно. Наибольшее число гомологов найдено в базе nr: она имеет наибольший объем, следовательно, больше сведений о похожих белках. Меньше всего гомологов найдено в PDB: ее объем не так велик, как у nr или SwissProt. Все найденные "худшие" последовательности оказались различны. Это опять же можно объяснить размерами баз данных. В PDB последняя в выдаче находка обладает e-value гораздо меньшей (и следовательно самой лучшей), чем в SwissProt. Наибольшее число "худших находок" содержится в базе nr, у нескольких записей e-value равно 1.0 (это записи ZP_03639439.1, YP_002583682.1, YP_002541417.1, ZP_01156700.1, ZP_03391971.1), хотя подробные данные о процентах идентичности, сходства и т.п. для них не приведены (их можно определить, проведя отдельное выравнивание белка P0ABD8 с ограничением по организму, в котором содержится белок, для которого выравнивание обладало e-value=1.0). 2). Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
При поиске гомологов лучшие были найдены у наиболее отдаленных от E.coli таксонов. Наличие возможного гомолога в homo sapiens может говорить о его ортологичном происхождении (хотя огромный эволюционный разрыв между этими таксонами мог привести просто к случайному совпадению участков их последовательностей, ведь e-value гомолога в homo sapiens не очень мала).
Homo sapiens - вид. Другие возможные гомологи были найдены в царстве Архей и в отделе Актинобактерий. В таксонах меньшего порядка (в порядке Alteromanadales и семействе Vibrionaceae) гомологов найдено не было. Причиной этого может являться то, что гомологов в организмах этих таксонов нет. Другой причиной этого можно назвать то, что в таксоне, охватывающем большее число организмов, вероятность найти гомолог белку из E.coli больше. Третья возможная причина - этот белок, возможно, не был открыт открыт в данном таксоне, а подробное исследование и поиск гомологов данного белка проводилось в других таксонах. 3). Поиск белка по его фрагменту Фрагмент некоего белка представлен последовательностью в fasta формате: >seq AAPAPAAAAPAAAAAESAPAAPKLNВ результате поиска в BLASTP был найден белок BCCP_PSEAE c последовательностью: >gi|584830|sp|P37799.1|BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAAPAPAAAAPAAAAAE SAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIVEAMKMMNHIEAEVSGTIESILV ENGQPVEFDQPLFTIV |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Как и следовало ожидать, наилучшее выравнивание как фрагмента, так и целой последовательности белка происходит с последовательностью этого же белка (содержмое ячеек таблицы в строке AC совпадает). Вес этих выравниваний разный в силу разных длин последовательности. Очень сильно различаются значения e-value: оно в десятки раз больше у фрагмента, чем у полной последовательности. В приведенной выше формуле для e-value (E=l*L*K*e-λS)в данном случае важными параметрами являются l - длина последовательности и S - вес последовательности. Длина выравнивания полных последовательностей больше, чем выравнивание с фрагментом, однако гораздо больше и вес выравнивания. Так как вес со знаком минус, умноженный на λ, стоит в показателе степени, и e-value с большим весом в 10-и раз меньше e-value с меньшим весом, то можно сделать вывод, что именно из-за разницы в весе значения e-value различаются.
Теперь, когда белок, соответствующий фрагменту последовательности определен, можно проанализировать его выравнивание с белком BCCP_ECOLI. Здесь было приведено пробное выравнивание фрагментов из белков BCCP_ECOLI и BCCP_PSEAE при помощи программы Gendoc. Ниже приведено выравнивание полных последовательностей этих белков при помощи BLAST (жирно выделены фрагменты локального выравнивания). Длина: 157 Идентичность: 102/157 (64%) Сходство: 123/157 (78%) Гэпы: 4/157 (2%) Вес: 191 бит (485) BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPV-AAPAP 59 MDIRK+KKLIEL+EESGI ELEI EGEESVRISR + A+ PV QA +AAP+ PA BCCP_ECOLI MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ 58 BCCP_PSEAE A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV 118 + AAAPA + APAA +++G++VRSPMVGTFYR SP + F+EVGQ V GD LCIV BCCP_ECOLI SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV 118 BCCP_PSEAE EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI 155 EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL I BCCP_ECOLI EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI 155Если теперь отдельно выписать выравнивание фрагментов из выравнивания последовательностей и сравнить с тем, что было получено здесь в пункте 2 дополнительных заданий, то окажется. что 2 локальных выравнивания совпадают. Интересно, что в пробных выравниях данный способ имел наибольший вес по матрице BLOSUM62 наравне с другим, где отсутствовал гэп в последовательности белка BCCP_PSEAE. Оказалось, что именно выравнивание с гэпом было выведено в BLAST (оно обладало лучшей идентичностью и сходством). 4). Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями. (далее на выравниваниях жирным шрифтом будут отмечаться их различия с выравниванием, полученным из BLASTP) Оптимальное глобальное выравнивание программой needle Длина: 158 Идентичность: 102/158 (64.6%) Сходство: 123/158 (77.8%) Гэпы: 4/158 ( 2.5%) Вес: 476.0 BCCP_ECOLI MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQ--AYAAPMMQQPAQ 58 MDIRKIKKLIEL+EESGI ELEI EGEESVRISR + A+ PV Q A+AAP + PA BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAP-VAAPAP 59 BCCP_ECOLI SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV 118 + AAAPA + APAA +++G++VRSPMVGTFYR SP + F+EVGQ V GD LCIV BCCP_PSEAE A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV 118 BCCP_ECOLI EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVIE 156 EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL I BCCP_PSEAE EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTIV 156В этом выравнивании есть 2 маленьких участка, отличных от выравнивания в BLASTP: с 47 по 49 и с 54 по 55, плюс дополнительная колонка в конце выравнивания. Сравнивая проценты идентичности, сходства и гэпов, можно сказать, что они похожи с показателями из BLASTP (к тому же, там эти значения,по-видимому, были округлены). А вот веса выравниваний различаются: в needle вес равен 476, а в BLASTP - 485, что соотвестствует 191 биту. Oптимальное глобальное выравнивание программой stretcher Длина: 158 Идентичность: 102/158 (64.6%) Сходство: 123/158 (77.8%) Гэпы: 4/158 ( 2.5%) Вес: 476 BCCP_ECOLI MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ 58 MDIRK+KKLIIL+EESGI ELEI EGEESVRISR + A+ PV QA +AAP+ PA BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAA-PAP 59 BCCP_ECOLI SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV 118 + AAAPA + APAA +++G++VRSPMVGTFYR SP + F+EVGQ V GD LCIV BCCP_PSEAE A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV 118 BCCP_ECOLI EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVIE 156 EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL I BCCP_PSEAE EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTIV 156В этом выравнивании только один участок, отличный от выравнивания в BLASTP: с 55 по 57, плюс дополнительная колонка, как в предыдущем случае. Во всем остальном это выравнивание сходно с тем, что в needle: по идентичности, сходству, гэпам и весу, а следовательно его сравнение с выравниванием из BLASTP такое же. Оптимальное локальное выравнивание программой water Длина: 157 Идентичность: 102/157 (65.0%) Сходство: 123/157 (78.3%) Гэпы: 4/157 ( 2.5%) Вес: 478.0 BCCP_ECOLI MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQ--AYAAPMMQQPAQ 58 MDIRKIKKLIEL+EESGI ELEI EGEESVRISR + A+ PV Q A+AAP + PA BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAP-VAAPAP 59 BCCP_ECOLI SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV 118 + AAAPA + APAA +++G++VRSPMVGTFYR SP + F+EVGQ V GD LCIV BCCP_PSEAE A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV 118 BCCP_ECOLI EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI 155 EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL I BCCP_PSEAE EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI 155Это выравнивание полностью совпадает с выравниванием в needle за исключением последней колонки: здесь ее нет. Так как нет колонки, то длина уменьшается, а это увеличивает все показатели: идентичность, сходство, гэпы. Здесь различия с показателями для BLASTP должно быть меньше, чем в глобальных выравниваниях. Оптимальное локальное выравнивание программой matcher Длина: 157 Идентичность: 102/157 (65.0%) Сходство: 123/157 (78.3%) Гэпы: 4/157 ( 2.5%) Вес: 478 BCCP_ECOLI MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ 58 MDIRK+KKLIIL+EESGI ELEI EGEESVRISR + A+ PV QA +AAP+ PA BCCP_PSEAE MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAA-PAP 59 BCCP_ECOLI SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV 118 + AAAPA + APAA +++G++VRSPMVGTFYR SP + F+EVGQ V GD LCIV BCCP_PSEAE A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV 118 BCCP_ECOLI EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI 155 EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL I BCCP_PSEAE EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI 155Это выравнивание полностью совпадает с тем, что построено программой stretcher, за исключением последней колонки: как и в предыдущем случае, она здесь отсутствует. По аналогии с предыдущим случаем, все показатели увеличились. Таким образом, выравнивания этих белков программами пакета EMBOSS (needle, water, stretcher и matcher) практически не отличаются от выравнивания в BLASTP при одинаковых параметрах для штрафов за гэпы. Это говорит о схожести структур белков: возможны лишь малые вариации в выравниваниях в зависимости от программы, но для достижения максимального веса возможно использования сильно ограниченного числа способов. |