Выравнивание последовательностей. Занятие 3.
поиск в BLAST
№1. Поиск гипотетических гомологов изучаемого белка в разных банках.
Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU
|
Поиск по Swiss-Prot |
Поиск по PDB |
Поиск по "nr" |
1. Лучшая находка (в принципе должна соответствовать заданному белку)
|
Accession |
P80643.1 |
2X2B_A |
NP_389474.1 |
E-value |
4e-46 |
4e-47 |
1e-44 |
Вес (в битах) |
372 |
372 |
372 |
Процент идентичности |
100% |
100% |
100% |
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)
|
|
310 |
20 |
1621 |
3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)
|
Номер находки в списке описаний |
370 |
34 |
3531 |
Accession |
Q54FI3.1 |
2K0X_A |
ZP_08776998.1 |
E-value |
0.98 |
0.90 |
0.99 |
Вес (в битах) |
68 |
57 |
74 |
% идентичности |
27% |
31% |
28% |
% сходства |
57% |
56% |
59% |
Длина выравнивания |
79 |
45 |
68 |
Координаты выравнивания (от-до, в запросе и в находке) |
6-74 и 496-574 |
31-75 и 36-80 |
3-70 и 5-72 |
Число гэпов |
10 |
0 |
0 |
По проценту идентичности, а также по весу выравнивания в битах (что более показательно, чем E-value) можно сказать, что исходный белок был найден
во всех трех базах данных.
Число явных гомологов (E-value < 1e-10) наибольшее в "nr" (1621), что очевидно, так как это общая виртуальная база данных BLAST со всеми
существующими последовательностями 17649572 штук. Следовательно, результатов здесь будет больше всего.
Также ожидаемо, что в PDB окажется минимум результатов (здесь 20), так как тут будут собраны только последовательности, действительно кодирующие
белки, причем, как правило, эти белки должны быть кристаллизуемы (чтобы получить координаты атомов). Такой многоступенчатый отбор и уменьшает количество
результатов. Всего последовательностей 57172.
Несложно сделать вывод, что число находок в Swiss-Prot (310) окажется в данном интервале. Последовательностей здесь гораздо больше, чем в PDB,
но это курируемая БД, а ее данные включает в себя "виртуальная" "nr". Всего последовательностей 450603.
Всего находок в "nr" 4058, E-value последней - 9.9, что и лимитирует выдачу данных. Аналогично, в PDB 46 результатов, E-value последней - 9.8,
а в Swiss-Prot 405 находок, E-value последней 8.7.
№2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.
Для наглядности воспользуемся готовой таблицей...
|
результаты поиска |
Мне повезло, я нашел неплохое выравнивани уже в Eucariota
|
Номер находки в списке описаний |
1 |
Accession |
P27060.2 |
E-value |
8e-23 |
Вес (в битах) |
198 |
% идентичности |
51% |
% сходства |
74% |
Длина выравнивания |
76 |
Координаты выравнивания (от-до, в запросе и в находке) |
1-74 и 1-74 |
Число гэпов |
0 |
Очень приятно также видеть, что в выравнивании нет "участков низкой сложности", что
(в совокупности со значеним E-value, процентами идентичности и сходства) говорит о довольно высокой степени консервативности фермента.
Также стоит упомянуть, что всего находок было предложено 50 (Swiss-Prot), что соответствовало нижней границе поиска.
E-value последней был 0,003.
№3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
Сначала я хотел привести все три выравнивания целиком, но затем решил показать полностью только выравнивание BLAST, как наиболее
интересное.
Данные остальных выравниваний частично опущены или обработаны (таблица внизу), полные варианты можно посмотреть здесь: prac7.needle
& prac7.water.
Выравнивание BLAST:
>sp|P27060.2|ACP_CYLSN RecName: Full=Acyl carrier protein; Short=ACP
Length=80
Score = 80.9 bits (198), Expect = 8e-23, Method: Compositional matrix adjust.
Identities = 39/76 (51%), Positives = 56/76 (74%), Gaps = 0/76 (0%)
Query 1 MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDEFDMEISDEDA 60
M+DTL+R+ KI+ ++L VD V A F + LGADSLD++EL+M +E EF+++I D A
Sbjct 1 MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYEFNIDIEDHYA 60
Query 61 EKIATVGDAVNYIQNQ 76
KI TV DA+NYI+N+
Sbjct 61 SKITTVQDALNYIENK 76
Выравнивание needle:
ACP_BACSU 1 MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDE 50
|:|||:|:.||:.::|.||...|...|.|.:.|||||||::||:|.:|.|
ACP_CYLSN 1 MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYE 50
ACP_BACSU 51 FDMEISDEDAEKIATVGDAVNYIQNQQ--- 77
|:::|.|..|.||.||.||:|||:|:.
ACP_CYLSN 51 FNIDIEDHYASKITTVQDALNYIENKIKQK 80
Выравнивание water:
ACP_BACSU 1 MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDE 50
|:|||:|:.||:.::|.||...|...|.|.:.|||||||::||:|.:|.|
ACP_CYLSN 1 MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYE 50
ACP_BACSU 51 FDMEISDEDAEKIATVGDAVNYIQNQ 76
|:::|.|..|.||.||.||:|||:|:
ACP_CYLSN 51 FNIDIEDHYASKITTVQDALNYIENK 76
общие параметры |
данные BLAST |
needle |
water |
Length |
76 |
80 |
76 |
Identity |
39/76 (51%) |
39/80 (48.8%) |
39/76 (51.3%) |
Similarity |
56/76 (74%) |
56/80 (70.0%) |
56/76 (73.7%) |
Gaps |
Gaps = 0/76 (0%) |
3/80 ( 3.8%) |
0/76 ( 0.0%) |
Score |
80.9 |
196.0 |
199.0 |
Выравнивания water и needle смысла сравнивать не имеет, так как этому было посвящено прошлое занятие, и это от нас не требуется.
Как и в BLASTP, при создании последних выравниваний были использованы параметры: матрица сходства BLOSUM62, штраф за отгрытие гепа 11 и 1 за его продолжение.
Внимательно посмотрев на последовательности (сопоставив порядок а/к остатков или хотя бы заметив, что во всех 3 выравниваниях участвуют одни и те же
участки последовательностей: с 1 по 76 с исключением лишь для полного выравнивания needle, добавляющего к привычному кластеру еще 77-ой остаток и 3 гепа)
с облегчением вздохнем, так как выравнивания очень хорошо сопоставляются, и нам явно повезло.
К сожалению, без неприятностей не обошлось. Стоит заметить, насколько различается сумма выравнивания BLASTP и water при тех же параметрах и совпадении
выравнивания.
На этот счет у меня есть только одно предположение: Так как выравнивание BLASTP имеет меньшее значение, а само оно строится лишь для
быстрого поиска похожих последовательностей, то можно предположить, что BLASTP суммирует лишь баллы совпадения BLOSUM62, значительно увеличивая скорость
поиска. Косвенно об этом говорит и точность округления в BLAST: до целых, а не до десятых процента.
Однако это всего лишь гипотеза.
назад в проекты.html
© Aleshin Vasily