Главная
I Семестр
II Семестр
Проекты
Обратная Связь
|
BLASTP
1) Поиск гипотетических гомологов изучаемого белка в разных БД
Таблица 1а. Результаты поиска гипотетических гомологов белка rsuA_Ecoli
|
Поиск по БД Swiss-Prot |
Поиск по БД PDB |
Поиск по БД "nr" |
1. Лучшая находка (в принципе должна соответствовать заданному белку) |
Идентификатор БД |
RSUA_ECOLI |
1KSK |
NP_288766 |
E-value |
7e-135 |
9e-133 |
1e-133 |
Вес (в битах) |
479 |
468 |
479 |
% Идентичности |
100% |
98% |
100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
Не найдено |
3; 1KSL (эта одна и таже структура, но с ней связаны различные лиганды) |
85; NP_311102 |
Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний, Descriptions, с E-value<=1E-10)
| 65 |
5 |
2282 |
2. "Худшая" находка (последняя в выдаче с E-value<1.0) |
Номер находки в списке описаний (Descriptions) |
72 |
8 |
2592 |
Идентификатор БД |
ARY1_CHICK |
1V9F |
YP_146684 |
E-value |
0.68 |
0.85 |
0.99 |
Вес (в битах) |
33.9 |
29.6 |
37.4 |
% Идентичности |
20% |
22% |
24% |
% Сходство |
37% |
42% |
44% |
Длина выравнивания |
162 |
195 |
154 |
Координаты выравнивания (номера первых и последних а.о.) |
63 и 216 у RSUA_ECOLI 129 и 281 у ARY1_CHICK |
24 и 198 у 1KSK 61 и 247 у 1V9F |
63 и 195 у NP_288766 92 и 244 у YP_146684 |
% Гэпов |
10% |
14% |
14% |
Таблица 1б. Краткие комментарии к таблице
Вопрос |
Краткий ответ |
Удалось ли найти изучаемый белок в "SwissProt" и "nr", а его структуру в PDB? |
Мне удалось найти мой белок во всех 3-х базах данных. |
Сравнить параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и
объясните различия (если они есть, конечно) |
Различия в выравнивании с самим собой наблюдается только в PDB. Главное различие - это мутация, информация о которой имеется в записи банка PDB,
но не содержится в банке "SwissProt". Это мутация заключается в том, что все метионины заменены на селенметионины. |
Сравнить число потенциальных гомологов при поиске по разным БД и поясните причину различий |
Число потенциальных гомологов белка, найденных в трех разных базах данных, различно.
В PDB содержится наименьшее число гомологов. Так как эта база содержит в себе информацию о третичной структуре, и ее объем не так велик, как у "nr" или "SwissProt". В "SwissProt" больше гомологов, так как она
включает в себя многочисленные исследования белков, но содержит только проверенные данные. Наибольшее число гомологов найдено в базе "nr":
она имеет наибольший объем. Так как в ней содержится информацию из различных баз данных, в том числе "SwissProt" и PDB, но без повторений. |
Сравните "худшие" находки при поиске по разным БД: совпадают ли они? Если нет, то почему? Какая из "худших" самая хорошая? |
Все "худшие" гомологи оказались различными. Это объясняется размерами БД. А лучший из "худших" содержится в "SwissProt". БД "SwissProt" и PDB
изначально различны и несвязаны между собой. Наибольшее число "худших" гомологов содержится в "nr", у 16 записей e-value равно 1.0. У них одинаковый вес,
но различаются: длины выравнивания, %идентичности, %сходства и % гэпов. Поэтому я взял e-value равное 0.99, при котором содержится всего одна запись. |
2) Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Я выполнил поиск по SwissProt в таксонах Homo sapiens, Archaea не было обнаружено ни одного
гомолога моего белка, c учетом критерия: E-value<0.001. Но выполнив поиск по таксону Actinobacteria я
обнаружил несколько гомологов моего белка.
Таблица 2. Результаты поиска гипотетических гомологов белка rsuA_Ecoli в классе Actinobacteria
Поиск по БД Swiss-Prot |
|
Идентификатор БД |
Y1738_MYCBO |
E-value |
4e-25 |
Вес (в битах) |
109 |
% Идентичности |
34% |
% Сходство |
48% |
Длина выравнивания |
236 |
Координаты выравнивания (номера первых и последних а.о.) |
1 и 230 у RSUA_ECOLI 14 и 248 у Y1738_MYCBO |
% гэпов
| 2% |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
2; Y1711_MYCTU |
Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний, Descriptions, с E-value<=1E-10)
| 3 |
3) Поиск белка по его фрагменту
Фрагмент некоторого белка, который был мне выдан на первом занятии, представленный в fasta-формате:
>seq2
VRGTKKLFHVGRLDADTEGLMLLTNDGE
В результате поиска в BLASTP было найдено два белка с ID: Y1738_MYCBO, Y1711_MYCTU и AC: P65843, P65842. Последовательности представлены в fasta-формате, а
подчеркиванием выделен фрагмент, который мне достался:
>Y1738_MYCBO P65843
MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAV
VRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDA
DTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDD
FAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQRPGSVRAL
RSNEIGQLYQAVGL
>Y1711_MYCTU P65842
MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAV
VRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDA
DTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDD
FAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQRPGSVRAL
RSNEIGQLYQAVGL
Таблица 3. Результаты поиска белка в SwissProt по фрагменту последовательности
|
Поиск по фрагменту |
Поиск по полной последовательности |
АС лучшей находки |
P65843 |
P65843 |
E-value |
5e-19 |
8e-142 |
Вес (в битах) |
91.0 |
502 |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
|
P65842 |
P65842 |
Сравнивая поиск по фрагменту и полной последовательности мы наблюдаем отличия, но это вполне естественно.
Так как вес выравнивания складывается из весов замен а.о., поэтому если длина выравнивания фрагмента короче длины выравнивания всей последовательности, то вес разный.
А E-value также зависит от веса выравнивания и длины, которые в данном случае различны.
Ниже приведено выравнивание полных последовательностей этих белков при помощи BLAST (Query это RSUA_ECOLI, а Sbjct - Y1738_MYCBO, либо Y1711_MYCTU). Подчеркиванием выделены фрагменты локального выравнивания.
E-value = 1e-23
Identities(Идентичность)= 81/236 (34%)
Positives(Сходство) = 115/236 (48%)
Gaps(Гэпы) = 7/236 (2%)
Длина = 236
Score(Вес) = 109 бит (273)
Query 1 MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-YDGNPLAQQHG 59
+RL K ++Q SR A + I RV VDG +V ++ P+ V DG +
Sbjct 14 IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRVDGARVVLDDS 73
Query 60 PRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPV--AWKLHAAGRLDIDTTGLVLMTDDGQ 116
Y LNKP+G + +DD P + ++ V KL GRLD DT GL+L+T+DG+
Sbjct 74 LVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLFHVGRLDADTEGLMLLTNDGE 133
Query 117 WSHRITSPRHHCEKTYLVTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVI-TPTQV 174
+HR+ P H KTYL T+ V G++L + AV++ I T V
Sbjct 134 LAHRLMHPSHEVPKTYLATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLV 193
Query 175 RLTISEGRYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV 230
R+T+ EGR V+R+ AA G V L R IG ++L PG R L EI +
Sbjct 194 RVTLHEGRNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL 248
В выравнивании те фрагменты, которые я сравнивали с помощью GeneDoc, имеют следующие номера а.о. : 89-116 для RSUA_ECOLI(Query) и
106-133 для Y1738_MYCBO(Sbjct). Но выравнивание при помощи BLAST и мое выранивание не совпадают. Ниже приведено мое выравнивание:
Если бы я выравнивал при помощи BLAST, то мне пришлось бы вставить гэпы, в результате чего уменьшился бы вес. Выравнивания не совпадают так,
как не совпадают начальные позиции. И для того чтобы сравнять эти позиции и сделать похожем на мое выравнивание BLAST ставит гэпы.
4) Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Я выполнил выравнивания в программах BLASTP, needle, stretcher, matcher и water при значениях параметров, стандартных для BLASTP:
штраф за начало гэпа 11, а за продление 1.
Таблица 4. Сравнение выравниваний
|
BLASTP |
needle |
stretcher |
matcher |
water |
Вес |
273 |
275 |
243 |
276 |
276 |
Длина выравнивания |
236 |
255 |
255 |
236 |
236 |
Идентичность |
81/236 (34%) |
81/255 (31.8%) |
82/255 (32.2%) |
81/236 (34.3%) |
81/236 (34.3%) |
Сходство |
115/236 (48%) |
115/255 (45.1%) |
116/255 (45.5%) |
115/236 (48.7%) |
115/236 (48.7%) |
Количество Гэпов |
7/236 (2%) |
25/255 (9.8%) |
25/255 (9.8%) |
7/236 (3.0%) |
7/236 (3.0%) |
Координаты выравнивания(номера первых и последних а.о.) Первая пара для RSUA_ECOLI, вторая для Y1738_MYCBO |
1-230 14-248 |
1-231 1-254 |
1-231 1-254 |
1-230 14-248 |
1-230 14-248 |
Оптимальное глобальное выравнивание с помощи программы needle
RSUA_ECOLI 1 -------------MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNA 37
:||.|.::|....||..|.:.|...||.|||.:|...
Y1738_MYCBO 1 MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTEL 50
RSUA_ECOLI 38 AFKLLPEHDVA-YDGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLY 85
..::.|:..|. .||..:.......|..||||:| :...:||...|.:..
Y1738_MYCBO 51 GTRVDPQVAVVRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGD 100
RSUA_ECOLI 86 FLDEPV--AWKLHAAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYL 133
.::..| ..||...||||.||.||:|:|:||:.:||:..|.|...||||
Y1738_MYCBO 101 LIERKVRGTKKLFHVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYL 150
RSUA_ECOLI 134 VTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEG 181
.|:...|..........|::|.:....... ||::.|. .|.||:|:.||
Y1738_MYCBO 151 ATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEG 200
RSUA_ECOLI 182 RYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASVV 231
|...|:|:.||.|..|..|.|..||.::|... .||..|.|...||..:.
Y1738_MYCBO 201 RNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQLY 249
RSUA_ECOLI 231 ----- 231
Y1738_MYCBO 250 QAVGL 254
Данное выравнивание практически полностью совпадает с выравниванием BLASTP при одинаковых значениях параметров. За исключением первых 13 колонок и 6 последней,
которых нет при выравнивание с помощью BLASTP и одного маленького учатка. Участки которые отличаются подчеркнуты. Рассмотрим этот маленький участок:
BLASTP: RSUA_ECOLI -T needle: RSUA_ECOLI T-
Y1738_MYCBO PG Y1738_MYCBO PG
По матрице весов замен BLOSUM62 я определил, что замены T-G и T-P имеют вес: -2 и -1. Поэтому это отличие не значительно.
Оптимальное глобальное выравнивание с помощи программы stretcher
10 20 30
RSUA_E M-------------RLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNA
: :: : ..: :: : . : :: ::: .:
Y1738_ MMAEPEESREPRGIRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTEL
10 20 30 40 50
40 50 60 70 80
RSUA_E AFKLLPEHDVA-YDGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLY
.. :. : :: . : ::::.: . .:: : .
Y1738_ GTRVDPQVAVVRVDGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGD
60 70 80 90 100
90 100 110 120 130
RSUA_E FLDEPVAW--KLHAAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYL
.. : :: :::: :: ::.:.:.::. .::. : : ::::
Y1738_ LIERKVRGTKKLFHVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYL
110 120 130 140 150
140 150 160 170 180
RSUA_E VTLESPVADDTAEQFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEG
:. : :..: . ::.. : : ::.:. ::
Y1738_ ATVTGSVPRGLGRTLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEG
160 170 180 190 200
190 200 210 220 230
RSUA_E RYHQVKRMFAAVGNHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV-
: :.:. :: : : : : :: ..: :: : : :: .
Y1738_ RNRIVRRLLAAAGFPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQLY
210 220 230 240
RSUA_E ----V
.
Y1738_ QAVGL
250
Данное выравнивание слегка отличается от выравнивания BLASTP. Участки которые отличаются подчеркнуты. Вес выравнивания
в данном случае существенно ниже, чем при выравнивание с помощью needle, так как здесь гэпы стоят не в самом начале, когда они не засчитываются,
а после первого а.о., поэтому они снижают вес. Аналогичная ситуация и в конце. А участок:
BLASTP or needle: RSUA_ECOLI --AW stretcher: RSUA_ECOLI AW--
Y1738_MYCBO RGTK Y1738_MYCBO RGTK
По матрице весов замен BLOSUM62 я определил, что замены A-T,W-K и A-R,W-G в сумме имеют одинаковый вес. Поэтому это не значительное отличие.
Оптимальное глобальное выравнивание с помощи программы matcher
10 20 30 40
RSUA_E MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-Y
.:: : ..: :: : . : :: ::: .: .. :. :
Y1738_ IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRV
20 30 40 50 60
50 60 70 80 90
RSUA_E DGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPVAW--KLH
:: . : ::::.: . .:: : . .. : ::
Y1738_ DGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLF
70 80 90 100 110
100 110 120 130 140
RSUA_E AAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYLVTLESPVADDTAE
:::: :: ::.:.:.::. .::. : : :::: :. :
Y1738_ HVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGR
120 130 140 150 160
150 160 170 180 190
RSUA_E QFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEGRYHQVKRMFAAVG
:..: . ::.. : : ::.:. ::: :.:. :: :
Y1738_ TLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAG
170 180 190 200 210
200 210 220 230
RSUA_E NHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV
: : : :: ..: :: : : :: .
Y1738_ FPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL
220 230 240
Данное выравнивание чуть-чуть отличается от выравнивания BLASTP. Участки которые отличаются подчеркнуты. Как я уже выяснил выше:
что замены A-T,W-K и A-R,W-G в сумме имеют одинаковый вес. Поэтому это не значительное отличие.
Оптимальное глобальное выравнивание с помощи программы water
RSUA_ECOLI 1 MRLDKFIAQQLGVSRAIAGREIRGNRVTVDGEIVRNAAFKLLPEHDVA-Y 49
:||.|.::|....||..|.:.|...||.|||.:|.....::.|:..|. .
Y1738_MYCBO 14 IRLQKVLSQAGIASRRAAEKMIVDGRVEVDGHVVTELGTRVDPQVAVVRV 63
RSUA_ECOLI 50 DGNPLAQQHGPRYFMLNKPQG-YVCSTDDPDHPTVLYFLDEPV--AWKLH 96
||..:.......|..||||:| :...:||...|.:...::..| ..||.
Y1738_MYCBO 64 DGARVVLDDSLVYLALNKPRGMHSTMSDDRGRPCIGDLIERKVRGTKKLF 113
RSUA_ECOLI 97 AAGRLDIDTTGLVLMTDDGQWSHRITSPRHHCEKTYLVTLESPVADDTAE 146
..||||.||.||:|:|:||:.:||:..|.|...||||.|:...|......
Y1738_MYCBO 114 HVGRLDADTEGLMLLTNDGELAHRLMHPSHEVPKTYLATVTGSVPRGLGR 163
RSUA_ECOLI 147 QFAKGVQLHNEKDLTKP-AVLEVIT-PTQVRLTISEGRYHQVKRMFAAVG 194
....|::|.:....... ||::.|. .|.||:|:.|||...|:|:.||.|
Y1738_MYCBO 164 TLRAGIELDDGPAFVDDFAVVDAIPGKTLVRVTLHEGRNRIVRRLLAAAG 213
RSUA_ECOLI 195 NHVVELHRERIGGITLDADLAPGEYRPLTEEEIASV 230
..|..|.|..||.::|... .||..|.|...||..:
Y1738_MYCBO 214 FPVEALVRTDIGAVSLGKQ-RPGSVRALRSNEIGQL 248
Данное выравнивание практически полностью совпадает с выравниванием BLASTP при одинаковых значениях параметров. За исключением одного участка,
который мы уже рассматривали выше.
Таким образом, выравнивания этих белков с помощью BLASTP и программами пакета EMBOSS (needle, stretcher, matcher и water) практически не отличаются при одинаковых параметрах для штрафов за гэпы.
Но один учаток BLASTP выравнивает по другому по сравнению с программами пакета EMBOSS, что для меня осталось загадкой, но скорей всего это связано с отличием
алгоритмов данных программ. Как можно заметить из таблицы, что отношения для идентичности, сходства и количества гэпов одинаковы, но с другой стороны если
вычислять эти характеристики в процентах, BLASTP и программы пакета EMBOSS дают разные результаты. Исходя из этого наблюдения можно сделать вывод, что BLASTP
считает целую часть, а программы пакета EMBOSS пользуются стандартными правилами округления.
|