Главная | Проекты | Семестры |
web-интерфейс к BLASTP на сервере NCBI: http://www.ncbi.nlm.nih.gov/blast/.
- Поиск гипотетических гомологов изучаемого белка в разных БД.
Таблица 1. Результаты поиска гипотетических гомологов белка GLUQ_ECOLI
Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr" 1. Лучшая находка (в принципе должна соответствовать заданному белку) Идентификатор БД GLUQ_ECOLI 1NZJ NP_414686.2 E-value 2e-175 1e-176 3e-174 Вес (в битах) 614 614 614 % идентичности 100% 100% 100% Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)Нет Нет Нет 2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 595 7 2072 2. "Худшая" находка (последняя в выдаче с E-value<=1.0) Номер находки в списке описаний (Descriptions) 668 17 2782 Идентификатор БД SYQ_XANCP 1IQ0 ZP_02007183.1 E-value 0.66 0.73 1.0 Вес (в битах) 34.7 30.4 38.1 % идентичности 24% 39% 29% % сходства 40% 52% 49% Длина выравнивания 105 63 65 Координаты выравнивания (номера первых и последних а.о.) 9 - 113 13 - 73 7 - 71 % гэпов 0% 7% 0%
Мой белок нашелся во всех трех БД. Видно, что вес и длина его выравнивания с самим собой, естественно, одинаковые, но различаются значения E-value.
E = K*l*L*n-λS,
где S - вес выравнивания (Score), l - длина последовательности, L - объем банка, параметры К и λ - натуральные величины, характеризующие размер области поиска и систему оценки соответственно. Т. е. значения E-value получились разными из-за различного размера баз данных.
Количество гомологов для каждой из БД также различно, что тоже связано с их размерами: nr - самая большая БД, SwissProt - довольно обширная, но гораздо меньше, т. к. в ней содержатся только проверенные данные, PDB - самая маленькая БД, т. к. точная третичная структура известна для сравнительно небольшого числа белков. Опять же из-за разных размеров области поиска не совпадают и "худшие" находки: с одной стороны, потому что они находились по E-value (разница в разных БД уже обсуждалась выше), с другой стороны, потому что найденный в одной БД белок может просто отсутствовать в другой.
Лучшими из худших я бы считала находки из SwissProt и nr. Первое выравнивание имеет наибольшую длину, не сильно меньший по сравнению с другими вес и ни одного гэпа. У находки из nr наибольшие вес, идентичность и сходство, также нет гэпов, но длина выравнивания вдвое меньше.
- Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.
Гомологи были найдены во всех таксонах.
Таблица 2. Результаты поиска гомологов белка в различных таксонах.
Таксон Homo sapiens Archaea Actinobacteria Alteromonadales Vibrionaceae Идентификатор БД SYEM_HUMAN SYE_META3 GLUQ_COREF GLUQ_SHEAM SYE_VIBHB E-value 1e-34 4e-25 3e-46 1e-87 2e-38 Вес (в битах) 143 110 180 317 139 % идентичности 35% 30% 44% 55% 32% % сходства 51% 46% 59% 71% 48% Длина выравнивания 249 297 252 285 301 Координаты выравнивания (номера первых и последних а.о.) 9 - 232 7 - 276 8 - 238 1 - 284 9 - 292 % гэпов 10% 12% 11% 2% 6%
- Поиск белка по его фрагменту.
С помошью BLASTP был определен белок, из которого был взят фрагмент. Его AC - A6VCH9, ID в UniProt - GLUQ_PSEA7.
Полная последовательность в формате fasta.
Таблица 3. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
Поиск по фрагменту Поиск по полной
последовательностиАС лучшей находки GLUQ_PSEA7 GLUQ_PSEA7 E-value 3e-12 6e-167 Вес (в битах) 68.5 586 Найдены ли другие белки с теми же значениями E-value и веса в битах? Да, еще 3, например, GLUQ_PSEPK Нет
Фрагмент белка был найден в нескольких последовательностях. Среди них нет совпадающих, поэтому поиск по полной последовательности дал только один лучший результат. Значение E-value при поиске по полной последовательности резко уменьшилось за счет возрастания веса (т. к. E = K*l*L*n-λS).
Выравнивание найденного белка с моим:Query 3 SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREVPGAQRAILET 62 + Y+GRFAP+PSG LHFGSL+AA+ SYL ARA GRWLVR+ED+DPPREVPGA IL Sbjct 4 TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAETILRQ 63 Query 63 LERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTCSRKQLEDFAGIYPGFCRDAG 122 LE YG WDG V QS+R AY + L GL+Y CTC+R +++ GIY G CR Sbjct 64 LEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRARIQSIGGIYDGHCRVLH 123 Query 123 HARDDAAIRLRVPELEYRFVDRVQGEVC--QHLGREVGDFVIQRRDGLYAYQLAVVLDDA 180 H D+AA+R+R +F D+++G + + L RE DF+I RRDGL+AY LAVV+DD Sbjct 124 HGPDNAAVRIRQQHPVTQFTDQLRGIIHADEKLARE--DFIIHRRDGLFAYNLAVVVDDH 181 Query 181 WQGITDIVRGADLLDSTPRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAE 240 +QG+T+IVRGADL++ T RQ+ L +L G P Y+H+PL + P G KL K +P LP Sbjct 182 FQGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKG 241 Query 241 QAAVPLTRALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATL 288 L AL+ LGQ+ A + S + L V +W T +P A + Sbjct 242 DPRPVLIAALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIV 289Мое пробное выравнивание:
Жирным шрифтом я выделила фрагмент, который выравнивала в прошлый раз. Выравнивания полностью совпадают.![]()
- Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
При помощи needle было получено глобальное выравнивание тех же белков, с помощью water - локальное (штраф за открытие пропуска - 11.0, за продолжение - 1.0, как и в BLASTP). Сравним три выравнивания:needle Length: 300 Identity: 142/300 (47.3%) Similarity: 185/300 (61.7%) Gaps: 9/300 ( 3.0%) Score: 688.0 GLUQ_PSEA7 1 MT-SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPP 49 || :.|:|||||:|||.||||||:||:.|||.|||..||||||:||:||| GLUQ_ECOLI 1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP 50 GLUQ_PSEA7 50 REVPGAQRAILETLERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYA 99 ||||||...||..||.||..|||.|..||:|..||...:..|...||:|. GLUQ_ECOLI 51 REVPGAAETILRQLEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYY 100 GLUQ_PSEA7 100 CTCSRKQLEDFAGIYPGFCRDAGHARDDAAIRLRVPELEYRFVDRVQG-- 147 |||:|.:::...|||.|.||...|..|:||:|:|......:|.|:::| GLUQ_ECOLI 101 CTCTRARIQSIGGIYDGHCRVLHHGPDNAAVRIRQQHPVTQFTDQLRGII 150 GLUQ_PSEA7 148 EVCQHLGREVGDFVIQRRDGLYAYQLAVVLDDAWQGITDIVRGADLLDST 197 ...:.|.|| ||:|.|||||:||.||||:||.:||:|:|||||||::.| GLUQ_ECOLI 151 HADEKLARE--DFIIHRRDGLFAYNLAVVVDDHFQGVTEIVRGADLIEPT 198 GLUQ_PSEA7 198 PRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAEQAAVPLT 247 .||:.|.:|.|...|.|:|:||.:.|.|.||.|...:|.||.......|. GLUQ_ECOLI 199 VRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKGDPRPVLI 248 GLUQ_PSEA7 248 RALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATLPEESL---- 293 .||:.|||:..|...:.|..:.|...|.:|..|.:|..|.:..... GLUQ_ECOLI 249 AALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIVNSTFSNASC 298 water Length: 286 Identity: 140/286 (49.0%) Similarity: 182/286 (63.6%) Gaps: 4/286 ( 1.4%) Score: 696.0 GLUQ_PSEA7 3 SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREV 52 :.|:|||||:|||.||||||:||:.|||.|||..||||||:||:|||||| GLUQ_ECOLI 4 TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREV 53 GLUQ_PSEA7 53 PGAQRAILETLERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTC 102 |||...||..||.||..|||.|..||:|..||...:..|...||:|.||| GLUQ_ECOLI 54 PGAAETILRQLEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTC 103 GLUQ_PSEA7 103 SRKQLEDFAGIYPGFCRDAGHARDDAAIRLRVPELEYRFVDRVQG--EVC 150 :|.:::...|||.|.||...|..|:||:|:|......:|.|:::| ... GLUQ_ECOLI 104 TRARIQSIGGIYDGHCRVLHHGPDNAAVRIRQQHPVTQFTDQLRGIIHAD 153 GLUQ_PSEA7 151 QHLGREVGDFVIQRRDGLYAYQLAVVLDDAWQGITDIVRGADLLDSTPRQ 200 :.|.|| ||:|.|||||:||.||||:||.:||:|:|||||||::.|.|| GLUQ_ECOLI 154 EKLARE--DFIIHRRDGLFAYNLAVVVDDHFQGVTEIVRGADLIEPTVRQ 201 GLUQ_PSEA7 201 LYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAEQAAVPLTRAL 250 :.|.:|.|...|.|:|:||.:.|.|.||.|...:|.||.......|..|| GLUQ_ECOLI 202 ISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKGDPRPVLIAAL 251 GLUQ_PSEA7 251 RALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRA 286 :.|||:..|...:.|..:.|...|.:|..|.:|..| GLUQ_ECOLI 252 QFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESA 287 BLASTP Length: 288 Identity: 140/288 (48%) Similarity: 184/288 (63%) Gaps: 4/288 (1%) Score: 270 bits (689) Query 3 SSYVGRFAPTPSGYLHFGSLVAAVASYLDARAVGGRWLVRMEDLDPPREVPGAQRAILET 62 + Y+GRFAP+PSG LHFGSL+AA+ SYL ARA GRWLVR+ED+DPPREVPGA IL Sbjct 4 TQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAETILRQ 63 Query 63 LERYGFEWDGAVERQSERFPAYASVIEQLLRSGLAYACTCSRKQLEDFAGIYPGFCRDAG 122 LE YG WDG V QS+R AY + L GL+Y CTC+R +++ GIY G CR Sbjct 64 LEHYGLHWDGDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRARIQSIGGIYDGHCRVLH 123 Query 123 HARDDAAIRLRVPELEYRFVDRVQGEVC--QHLGREVGDFVIQRRDGLYAYQLAVVLDDA 180 H D+AA+R+R +F D+++G + + L RE DF+I RRDGL+AY LAVV+DD Sbjct 124 HGPDNAAVRIRQQHPVTQFTDQLRGIIHADEKLARE--DFIIHRRDGLFAYNLAVVVDDH 181 Query 181 WQGITDIVRGADLLDSTPRQLYLQELLGLSQPRYLHVPLIVQPDGHKLGKSYRSPPLPAE 240 +QG+T+IVRGADL++ T RQ+ L +L G P Y+H+PL + P G KL K +P LP Sbjct 182 FQGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPKG 241 Query 241 QAAVPLTRALRALGQRPPAELAEGSAGEALAWGVAHWDATRIPRRATL 288 L AL+ LGQ+ A + S + L V +W T +P A + Sbjct 242 DPRPVLIAALQFLGQQAEAHWQDFSVEQILQSAVKNWRLTAVPESAIV 289В первую очередь, все три выравнивания отличаются длиной. Самое длинное - проведенное программой needle глобальное выравнивание. В выравнивании BLASTP нет первых двух и последних 9 колонок. Заметим, что в выравнивании needle только в этих колонках содержится 5 гэпов, а остальные 4 находятся в части выравнивания, присутствующей в выравнивании BLASTP, в котором также 4 гэпа. Столько же гэпов и в выравнивании water, которое короче выравнивания BLASTP на 2 последних колонки.
Выравнивания удобно сравнивать, если найти эти самые 4 гэпа. Во всех трех вариантах выравнивания 2 из этих гэпов вставлены в одну последовательность, 2 - в другую. Если выделить область, слева ограниченную самым первым из пропусков (первый пропуск из двух пробелов в последовательности GLUQ_PSEA7 в water и needle) и включающую его, а справа - первым пропуском в BLASTP, также включающую его. Второй пропуск во всех вариантах расположен в одном месте, поэтому вправо и влево от выделенной области выравнивания идентичны за исключением "обрезанных" частей.
Теперь сравним выделенные участки. Различия в них могут определяться только положением пропуска. Этот пропуск из двух пробелов в последовательности GLUQ_PSEA7 в water и needle вставлен на 3 буквы раньше, чем в BLASTP, из-за чего и возникают расхождения - "сдвиг" участка последовательности GLUQ_PSEA7 на 2 вправо по сравнению с ее положением в BLASTP, который затем компенсируется вставкой такого же пропуска. Т. к. сдвигается совсем небольшой участок - 3 буквы - разница получается всего в одну замену V-I, которая есть в варианте BLASTP и отсутствует в двух других. Такое незначительное расхождение выравниваний говорит о высоком сходстве белков.
Основное же различие в численных параметрах выравниваний - весе, сходстве, идентичности - обусловлены различной длиной выравнивания.