Выравнивание последовательностей. Занятие 3.
поиск в BLAST

№1. Поиск гипотетических гомологов изучаемого белка в разных банках.

Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (в принципе должна соответствовать заданному белку)

Accession P80643.1 2X2B_A NP_389474.1
E-value 4e-46 4e-47 1e-44
Вес (в битах) 372 372 372
Процент идентичности 100% 100% 100%

2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)

310 20 1621

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 370 34 3531
Accession Q54FI3.1 2K0X_A ZP_08776998.1
E-value 0.98 0.90 0.99
Вес (в битах) 68 57 74
% идентичности 27% 31% 28%
% сходства 57% 56% 59%
Длина выравнивания 79 45 68
Координаты выравнивания (от-до, в запросе и в находке) 6-74 и 496-574 31-75 и 36-80 3-70 и 5-72
Число гэпов 10 0 0


По проценту идентичности, а также по весу выравнивания в битах (что более показательно, чем E-value) можно сказать, что исходный белок был найден во всех трех базах данных.

Число явных гомологов (E-value < 1e-10) наибольшее в "nr" (1621), что очевидно, так как это общая виртуальная база данных BLAST со всеми существующими последовательностями 17649572 штук. Следовательно, результатов здесь будет больше всего.

Также ожидаемо, что в PDB окажется минимум результатов (здесь 20), так как тут будут собраны только последовательности, действительно кодирующие белки, причем, как правило, эти белки должны быть кристаллизуемы (чтобы получить координаты атомов). Такой многоступенчатый отбор и уменьшает количество результатов. Всего последовательностей 57172.

Несложно сделать вывод, что число находок в Swiss-Prot (310) окажется в данном интервале. Последовательностей здесь гораздо больше, чем в PDB, но это курируемая БД, а ее данные включает в себя "виртуальная" "nr". Всего последовательностей 450603.

Всего находок в "nr" 4058, E-value последней - 9.9, что и лимитирует выдачу данных. Аналогично, в PDB 46 результатов, E-value последней - 9.8,
а в Swiss-Prot 405 находок, E-value последней 8.7.


№2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.



Для наглядности воспользуемся готовой таблицей...

результаты поиска

Мне повезло, я нашел неплохое выравнивани уже в Eucariota

Номер находки в списке описаний 1
Accession P27060.2
E-value 8e-23
Вес (в битах) 198
% идентичности 51%
% сходства 74%
Длина выравнивания 76
Координаты выравнивания (от-до, в запросе и в находке) 1-74 и 1-74
Число гэпов 0

Очень приятно также видеть, что в выравнивании нет "участков низкой сложности", что (в совокупности со значеним E-value, процентами идентичности и сходства) говорит о довольно высокой степени консервативности фермента.

Также стоит упомянуть, что всего находок было предложено 50 (Swiss-Prot), что соответствовало нижней границе поиска.
E-value последней был 0,003.

№3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Сначала я хотел привести все три выравнивания целиком, но затем решил показать полностью только выравнивание BLAST, как наиболее интересное.
Данные остальных выравниваний частично опущены или обработаны (таблица внизу), полные варианты можно посмотреть здесь: prac7.needle & prac7.water.
Выравнивание BLAST:

>sp|P27060.2|ACP_CYLSN  RecName: Full=Acyl carrier protein; Short=ACP
Length=80

 Score = 80.9 bits (198),  Expect = 8e-23, Method: Compositional matrix adjust.
 Identities = 39/76 (51%), Positives = 56/76 (74%), Gaps = 0/76 (0%)

Query  1   MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDEFDMEISDEDA  60
           M+DTL+R+ KI+ ++L VD   V   A F + LGADSLD++EL+M +E EF+++I D  A
Sbjct  1   MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYEFNIDIEDHYA  60

Query  61  EKIATVGDAVNYIQNQ  76
            KI TV DA+NYI+N+
Sbjct  61  SKITTVQDALNYIENK  76
Выравнивание needle:

ACP_BACSU          1 MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDE     50 
                     |:|||:|:.||:.::|.||...|...|.|.:.|||||||::||:|.:|.|        
ACP_CYLSN          1 MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYE     50 
                                                                               
ACP_BACSU         51 FDMEISDEDAEKIATVGDAVNYIQNQQ---     77                     
                     |:::|.|..|.||.||.||:|||:|:.                               
ACP_CYLSN         51 FNIDIEDHYASKITTVQDALNYIENKIKQK     80                     
Выравнивание water:

ACP_BACSU          1 MADTLERVTKIIVDRLGVDEADVKLEASFKEDLGADSLDVVELVMELEDE     50   
                     |:|||:|:.||:.::|.||...|...|.|.:.|||||||::||:|.:|.|          
ACP_CYLSN          1 MSDTLKRLQKIVSEQLSVDPEKVTSTADFGKQLGADSLDIIELIMTIEYE     50   
                                                                                 
ACP_BACSU         51 FDMEISDEDAEKIATVGDAVNYIQNQ     76                           
                     |:::|.|..|.||.||.||:|||:|:                                  
ACP_CYLSN         51 FNIDIEDHYASKITTVQDALNYIENK     76                           

общие параметры данные BLAST needle water
Length 76 80 76
Identity 39/76 (51%) 39/80 (48.8%) 39/76 (51.3%)
Similarity 56/76 (74%) 56/80 (70.0%) 56/76 (73.7%)
Gaps Gaps = 0/76 (0%) 3/80 ( 3.8%) 0/76 ( 0.0%)
Score 80.9 196.0 199.0

Выравнивания water и needle смысла сравнивать не имеет, так как этому было посвящено прошлое занятие, и это от нас не требуется.

Как и в BLASTP, при создании последних выравниваний были использованы параметры: матрица сходства BLOSUM62, штраф за отгрытие гепа 11 и 1 за его продолжение.

Внимательно посмотрев на последовательности (сопоставив порядок а/к остатков или хотя бы заметив, что во всех 3 выравниваниях участвуют одни и те же участки последовательностей: с 1 по 76 с исключением лишь для полного выравнивания needle, добавляющего к привычному кластеру еще 77-ой остаток и 3 гепа) с облегчением вздохнем, так как выравнивания очень хорошо сопоставляются, и нам явно повезло.

К сожалению, без неприятностей не обошлось. Стоит заметить, насколько различается сумма выравнивания BLASTP и water при тех же параметрах и совпадении выравнивания.

На этот счет у меня есть только одно предположение: Так как выравнивание BLASTP имеет меньшее значение, а само оно строится лишь для быстрого поиска похожих последовательностей, то можно предположить, что BLASTP суммирует лишь баллы совпадения BLOSUM62, значительно увеличивая скорость поиска. Косвенно об этом говорит и точность округления в BLAST: до целых, а не до десятых процента. Однако это всего лишь гипотеза.



назад в проекты.html


© Aleshin Vasily