include ("../../inc/apss.inc"); ?>
В ходе исследования использовалась программа BLASTP на сервере NCBI.
Basic Local Alignment Search Tool Proteins. Поиск гипотетических гомологов.
Поиск гипотетических гомологов изучаемого белка "Chaperone protein clpB" в разных БД.
Подаю на вход программе BLASTP код доступа изучаемого белка (AC - P63284). При этом я провожу поиск гомологов в банках: Swiss-Prot, PDB и "nr". Результаты представлены в виде таблицы 1.
Таблица 1. Результаты поиска гипотетических гомологов белка clpB_Ecoli
Поиск по БД SwissProt Поиск по БД PDB Поиск по БД "nr" Лучшая находкаИдентификатор БД CLPB_ECOLI 1QVR NP_289147 E-value 0.0 0.0 0.0 Вес (в битах) 1732 926 1733 % идентичности 100 56 100 Найдены ли другие белки с теми же значениями E-value и веса в битах? Найден белок CLPB_SHIFL c АС - Q7UBW5 в sp Да, имеются PDB кристалических структур, которые указаны в документе sp для моего белка. Это, изученная мной, запись 1JBK|A c E-Value 3e-108, вес в битах - 389 и еще запись 1KHY|A c E-Value 1e-78, вес в битах - 290, которую я тоже смотрел в RasMol'е и могу сказать, что этот документ, представляет пространственную структуру из 4 олигомеров N1-домена.* Здесь можно найти картинку Имеются с одинаковым E-value,но отлич. в весе на 1 бит: 10 шт. Пример: YP_541912 c весом 1732 Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 179 5 3858 "Худшая" находка (последняя в выдаче с E-value ≤ 1.0)Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr" Номер находки в списке описаний (Descriptions) 598 29 5327 Идентификатор БД CLPX_STRA5 2Z83 YP_002785159 E-value 1.0 0.92
Интересно: E-value увеличился за последние 2 недели(25.03.09-7.04.09) на 0.01 = 0.93 На глазах растет база данных. :-)1.0 Вес (в битах) 35.8 32.0 40.0 % идентичности 22 31 % сходства 40 50 Длина выравнивания 358 82 Координаты выравнивания (номера первых и последних а.о.) Query: 527-825
Sbjct: 41-374Query: 323-397
Sbjct: 42-121% гэпов 23 10 Белок с AC - P63284 был успешно найден во всех БД. Различия, которые наблюдаются при сравнении выравниваний, связаны с тем, что, например, в PDB находилась запись цепочки А (N - концевой домен), а не весь белок, поэтому и вес и другие результаты для PDB выравнивания относительно малы. В основном причина в этом. Cамое наименьшее кол-во кандидатов в гомологи в БД PDB. Вероятно, это связано с ее малым размером.
Худшие находки в разных БД разные. Самая лучшая "худшая находка" нашлась в БД PDB.
Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Задача — для изучаемого белка CLPB_ECOLI найти лучшего гомолога в организмах таксона, филогенетически как можно более далекого от E. coli.
Для исследования предлагаются следующие таксоны:
- Homo sapiens
- Archaea
- Actinobacteria
- Alteromonadales
- Vibrionaceae
Критерий гомологичности: E-value<0,001Сначала я решил поискать в авторитетной БД - SwissProt. Для этого я подал программе BLASTP ac - P63284. При этом я ограничился для начала таксоном Homo sapiens. С данным таксоном и БД мне повезло - нашелся белок CLPB_HUMAN с E-value = 5*10-56. Думаю, что этот белок - гомолог моего белка. Согласно заданию, я остановился. Результаты исследования находятся в табл. 2.
Таблица 2. Результаты поиска гипотетического гомолога белка clpB_Ecoli
в таксоне Homo sapiens
Поиск по БД SwissProt Идентификатор БД CLPB_HUMAN
*AC - Q9H078E-value 5e-56 Вес (в битах) 216 % идентичности 37 % сходства 57 Длина выравнивания 318 Координаты выравнивания (номера первых и последних а.о.) Query: 562-850
Sbjct: 339-655% гэпов 9 Белок CLPB_HUMAN, также как CLPB_ECOLI, относится к семейству clpA/clpB.
Функция: Возможно, белок - регуляторная АТФаза, и возможно, что имеет отношение к секреции и/или внутриклеточному транспорту белков.
По данным записи UniProt*Поиск белка по его фрагменту
На первом занятии 2 блока мне были даны фрагменты последовательностей:
>seq1
IMTSNLGSDLIQERFGELDY
>seq2
IMTSNIGSQVLLENVKETGEМоя задача — определить, из какого белка был взят второй фрагмент (seq2), и получить его полную последовательность в формате FASTA.
Программе BLASTP подаю фрагмент последовательности: IMTSNIGSQVLLENVKETGE; провожу поиск в БД SwissProt. Результаты поиска находятся в табл. 3(Первый столбец).
Таблица 3. Результаты поиска белка в Swiss-Prot по фрагменту последовательности.
Поиск по фрагменту Поиск по полной
последовательностиАС лучшей находки Выдал 4 белка с одинаковым E-value, весом и % идентичности, сходства. Самый первый AC - Q6GAV1 Q6GAV1 E-value 2e-11 0.0 Вес (в битах) 66.0 1768 Найдены ли другие белки с теми же значениями E-value и веса в битах? Да!
Q6GIB2
Q8NXE7
Q7A6G6
Судя по данным записи sw, различия заключаются в том, что белки из разных штаммов таксона Staphylococcus aureus.Найдены с E-value 0.0, но отличающиеся в замене на 1, 16 а.о. Вероятно, в этом и заключается небольшие межштаммовые различия в белках. Последовательность белка CLPB_STAAS (AC - Q6GAV1) в формате FASTA:
>CLPB_STAAS Chaperone protein clpB; MDINKMTYAVQSALQQAVELSQQHKLQNIEIEAILSAALNESESLYKSILERANIEVDQL NKAYEDKLNTYASVEGDNIQYGQYISQQANQLITKAESYMKEYEDEYISMEHILRSAMDI DQTTKHYINNKVEVIKEIIKKVRGGNHVTSQNPEVNYEALAKYGRDLVEEVRQGKMDPVI GRDEEIRNTIRILSRKTKNNPVLIGEPGVGKTAIVEGLAQRIVKKDVPESLLDKTVFELD LSALVAGAKYRGEFEERLKAVLKEVKESDGRIILFIDEIHMLVGAGKTDGAMDAGNMLKP MLARGELHCIGATTLNEYREYIEKDSALERRFQKVAVSEPDVEDTISILRGLKERYEVYH GVRIQDRALVAAAELSDRYITDRFLPDKAIDLVDQACATIRTEMGSNPTELDQVNRRVMQ LEIEESALKNESDNASKQRLQELQEELANEKEKQAALQSRVESEKEKIANLQEKRAQLDE SRQALEDAQTNNNLEKAAELQYGTIPQLEKELRELEDNFQDEQGEDTDRMIREVVTDEEI GDIVSQWTGIPVSKLVETEREKLLHLSDILHKRVVGQDKAVDLVSDAVVRARAGIKDPNR PIGSFLFLGPTGVGKTELAKSLAASLFDSEKHMIRIDMSEYMEKHAVSRLIGAPPGYIGH DEGGQLTEAVRRNPYSVILLDEVEKAHTDVFNVLLQILDEGRLTDSKGRSVDFKNTIIIM TSNIGSQVLLENVKETGEITESTEKAVMTSLNAYFKPEILNRMDDIVLFKPLSIDDMSMI VDKILTQLNIRLLEQRISIEVSDDAKAWLGQEAYEPQYGARPLKRFVQRQIETPLARMMI KEGFPEGTTIKVNLNSDNNLTFNVEKIHEДалее, я попытался поискать гипотетических гомологов полной последовательности в БД swissprot. Результаты в табл. 3(Второй столбец).
Различия между двумя выравниваниями заключаются в том, что вес и E-value гараздо лучше в поиске по полной последовательности, чем по ее фрагменту т.к. длина полностью совпавшей последовательности больше.
Выравнивание полной последовательности с clpB_Ecoli.
Query 1 MDINKMTYAVQSALQQAVELSQQHKLQNIEIEAILSAALNESESLYKSILERANIEVDQL 60 M ++++T Q AL A L+ H Q IE ++SA LN+ +L A I QL Sbjct 1 MRLDRLTNKFQLALADAQSLALGHDNQFIEPLHLMSALLNQEGGSVSPLLTSAGINAGQL 60 Query 61 NKAYEDKLNTYASVEG--DNIQYGQYISQQANQLITKAESYMKEYEDEYISMEHILRSAM 118 LN VEG ++Q SQ +++ + ++ D +IS E + +A+ Sbjct 61 RTDINQALNRLPQVEGTGGDVQP----SQDLVRVLNLCDKLAQKRGDNFISSELFVLAAL 116 Query 119 DIDQTTKHYI---NNKVEVIKEIIKKVRGGNHVTSQNPEVNYEALAKYGRDLVEEVRQGK 175 + T + I + I+++RGG V Q E +AL KY DL E QGK Sbjct 117 ESRGTLADILKAAGATTANITQAIEQMRGGESVNDQGAEDQRQALKKYTIDLTERAEQGK 176 Query 176 MDPVIGRDEEIRNTIRILSRKTKNNPVLIGEPGVGKTAIVEGLAQRIVKKDVPESLLDKT 235 +DPVIGRDEEIR TI++L R+TKNNPVLIGEPGVGKTAIVEGLAQRI+ +VPE L + Sbjct 177 LDPVIGRDEEIRRTIQVLQRRTKNNPVLIGEPGVGKTAIVEGLAQRIINGEVPEGLKGRR 236 Query 236 VFELDLSALVAGAKYRGEFEERLKAVLKEVKESDGRIILFIDEIHMLVGAGKTDGAMDAG 295 V LD+ ALVAGAKYRGEFEERLK VL ++ + +G +ILFIDE+H +VGAGK DGAMDAG Sbjct 237 VLALDMGALVAGAKYRGEFEERLKGVLNDLAKQEGNVILFIDELHTMVGAGKADGAMDAG 296 Query 296 NMLKPMLARGELHCIGATTLNEYREYIEKDSALERRFQKVAVSEPDVEDTISILRGLKER 355 NMLKP LARGELHC+GATTL+EYR+YIEKD+ALERRFQKV V+EP VEDTI+ILRGLKER Sbjct 297 NMLKPALARGELHCVGATTLDEYRQYIEKDAALERRFQKVFVAEPSVEDTIAILRGLKER 356 Query 356 YEVYHGVRIQDRALVAAAELSDRYITDRFLPDKAIDLVDQACATIRTEMGSNPTELDQVN 415 YE++H V+I D A+VAAA LS RYI DR LPDKAIDL+D+A ++IR ++ S P ELD+++ Sbjct 357 YELHHHVQITDPAIVAAATLSHRYIADRQLPDKAIDLIDEAASSIRMQIDSKPEELDRLD 416 Query 416 RRVMQLEIEESALKNESDNASKQRLQELQEELANEKEKQAALQSRVESEKEKIANLQEKR 475 RR++QL++E+ AL ESD ASK+RL L EEL++++ + + L+ ++EK ++ Q + Sbjct 417 RRIIQLKLEQQALMKESDEASKKRLDMLNEELSDKERQYSELEEEWKAEKASLSGTQTIK 476 Query 476 AQLDESRQALEDAQTNNNLEKAAELQYGTIPQLEKELRELEDNFQDEQGEDTDRMIREVV 535 A+L++++ A+E A+ +L + +ELQYG IP+LEK +LE Q E T R++R V Sbjct 477 AELEQAKIAIEQARRVGDLARMSELQYGKIPELEK---QLEAATQLEG--KTMRLLRNKV 531 Query 536 TDEEIGDIVSQWTGIPVSKLVETEREKLLHLSDILHKRVVGQDKAVDLVSDAVVRARAGI 595 TD EI +++++WTGIPVS+++E+EREKLL + LH RV+GQ++AVD VS+A+ R+RAG+ Sbjct 532 TDAEIAEVLARWTGIPVSRMMESEREKLLRMEQELHHRVIGQNEAVDAVSNAIRRSRAGL 591 Query 596 KDPNRPIGSFLFLGPTGVGKTELAKSLAASLFDSEKHMIRIDMSEYMEKHAVSRLIGAPP 655 DPNRPIGSFLFLGPTGVGKTEL K+LA +FDS++ M+RIDMSE+MEKH+VSRL+GAPP Sbjct 592 ADPNRPIGSFLFLGPTGVGKTELCKALANFMFDSDEAMVRIDMSEFMEKHSVSRLVGAPP 651 Query 656 GYIGHDEGGQLTEAVRRNPYSVILLDEVEKAHTDVFNVLLQILDEGRLTDSKGRSVDFKN 715 GY+G++EGG LTEAVRR PYSVILLDEVEKAH DVFN+LLQ+LD+GRLTD +GR+VDF+N Sbjct 652 GYVGYEEGGYLTEAVRRRPYSVILLDEVEKAHPDVFNILLQVLDDGRLTDGQGRTVDFRN 711 Query 716 TIIIMTSNIGSQVLLENVKETGEITESTEKAVMTSLNAY-FKPEILNRMDDIVLFKPLSI 774 T++IMTSN+GS ++ E GE+ + K ++ + ++ F+PE +NR+D++V+F PL Sbjct 712 TVVIMTSNLGSDLIQERF---GELDYAHMKELVLGVVSHNFRPEFINRIDEVVVFHPLGE 768 Query 775 DDMSMIVDKILTQLNIRLLEQRISIEVSDDAKAWLGQEAYEPQYGARPLKRFVQRQIETP 834 ++ I L +L RL E+ I +SD+A L + Y+P YGARPLKR +Q+QIE P Sbjct 769 QHIASIAQIQLKRLYKRLEERGYEIHISDEALKLLSENGYDPVYGARPLKRAIQQQIENP 828 Query 835 LARMMIKEGFPEGTTIKVNLNSD 857 LA+ ++ G I++ +N D Sbjct 829 LAQQILSGELVPGKVIRLEVNED 851Выравнивание, построенное при помощи BLASTP, почти совпадает с моим оптимальным:
У меня гэп идет после 13 E в верхней цепи, а PLASTP передвинул RF до E в нижней цепи, что соответствует моей верхней. И еще т.к. у меня были ограничения в последовательности(20), то в нижней послед. есть концевые гэпы, а послед., вырав. при помощи BLASTP, их нет.Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Попытаюсь сравнить выравнивание, выданное BLASTP,
- с оптимальным частичным выравниванием;
Используя water, получилось выравнивание*:
# Program: water ... # Report_file: costa.water ... # Aligned_sequences: 2 # 1: CLPB_ECOLI # 2: CLPB_STAAS # Matrix: EBLOSUM62 # Gap_penalty: 11.0 # Extend_penalty: 1.0 # # Length: 863 # Identity: 452/863 (52.4%) # Similarity: 616/863 (71.4%) # Gaps: 18/863 ( 2.1%) # Score: 2221.0 ...- с оптимальным полным выравниванием, сделанных с заданием тех же значений штрафов за создание и удлинение гэпа, которыми пользовался BLASTP.
Используя needle, получилось выравнивание*:
# Program: needle ... # Report_file: costa.needle ... # Aligned_sequences: 2 # 1: CLPB_ECOLI # 2: CLPB_STAAS # Matrix: EBLOSUM62 # Gap_penalty: 11.0 # Extend_penalty: 1.0 # # Length: 875 # Identity: 452/875 (51.7%) # Similarity: 617/875 (70.5%) # Gaps: 24/875 ( 2.7%) # Score: 2218.0 ...Таблица 4. Сравнение выравниваний.
BLASTP WATER NEEDLE Длина выравнивания: 863 863 875 % идентичности 52.0 52.4 51.7 % сходства 71.0 71.4 70.5 % гэпов 2.0 2.1 2.7 Вес 2269.0 2221.0 2218.0 Из табл.4 видно, что выравнивания отличаются. Длина выравниваний, построенных при помощи BLASTP и WATER одинаковы, а у NEEDLE больше. % гэпов увеличивается в ряду: BLASTP-WATER-NEEDLE, а вес уменьшается. % идентичности, сходства уменьшается в ряду: WATER-BLASTP-NEEDLE.