Учебный сайт Фоменко Елены

Главная Семестры Проекты Заметки

BLAST.

1. Таблица результатов поиска гипотетических гомологов белка YSDC_BACSU:

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка

Accession PЗ94521.1 1VHE A NP_390760.1
E-value 0.0 0.0 0.0
Вес (в битах) 738 708 738
Процент идентичности 100% 96% 100%

2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)

13 13 546

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 19 23 834
Accession B6IPC7 1BWW A ZP 04229557.1
E-value 0.022 0.88 0.96
Вес (в битах) 39.7 30.0 26.2
% идентичности 33% 33% 21%
% сходства 49% 53% 54%
Длина выравнивания 75 49 57
Координаты выравнивания (от-до, в запросе и в находке) 37-111, 44-112 253-301, 39-72 296-352, 318-372
Число гэпов 6 15 2

Что странно: 1VHE – это PDB ID моего же белка, но при поиске гомологов в этом банке получила результаты выравнивания, отличные от других. Возможно, в PDB хранятся неправильные данные о моем белке?... При поиске в nr пришлось ввести ограничения по таксону: Bacillales (taxid:1385). Во всех трех банках мой белок был найден. Структура в PDB тоже нашлась. Различия в количестве находок обусловлены различной полнотой данных и количеством источников данных. В nr собраны все известные последовательности из множества банков. Потому, если не убрать ограничение в 100 результатов, то не получится дойти до значения E-value>0. Это будет также очень затруднительно сделать, если не ограничить таксон.

2. Ищу гомологи белка в филогенетически далеких таксонах. Нашелся "гомолог" из организма человека (Eukaryota (taxid:2759)).

Номер находки в списке описаний 1
Accession P01608.1
E-value 2e-04
Вес (в битах) 32.7
% идентичности 37%
% сходства 51%
Длина выравнивания 49
Координаты выравнивания (от-до, в запросе и в находке) 253-301, 37-70
Число гэпов 15

3. Командой needle sw:p94521 sw:p01608 YSDC_BACSU,KV116_HUMAN.needle получила оптимальное полное выравнивание:

Aligned_sequences: 2
# 1: YSDC_BACSU
# 2: KV116_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 368
# Identity:      33/368 ( 9.0%)
# Similarity:    47/368 (12.8%)
# Gaps:         267/368 (72.6%)
# Score: 30.0
# 
#
#=======================================

YSDC_BACSU         1 MAKLDETLTMLKDLTDAKGIPGNEREVRQVMKSYIEPFADEVTTDRLGSL     50
                                                                       
KV116_HUMAN        0 --------------------------------------------------      0

YSDC_BACSU        51 IAKKTGAENGPKIMIAGHLDEVGFMVTQITDKGFIRFQTVGGWWAQVMLA    100
                                                                       
KV116_HUMAN        0 --------------------------------------------------      0

YSDC_BACSU       101 QRVTIVTKKGEITGVIGSKPPHILSPEARKKSVEIKDMFIDIGASSREEA    150
                                                                       
KV116_HUMAN        0 --------------------------------------------------      0

YSDC_BACSU       151 LEWGVLPGDMIVPHFEFTVMNNEKFLLAKAWDNRIGCAIAIDVLRNLQNT    200
                                                                       
KV116_HUMAN        0 --------------------------------------------------      0

YSDC_BACSU       201 DHPNIVYGVGTVQEEVGLRGAKTAAHTIQPDIAFGVDVG-------IAGD    243
                                            .....|...:....||       .|..
KV116_HUMAN        1 -----------------------DIQMTQSPSSLSASVGDRVTITCQASQ     27

YSDC_BACSU       244 TPGISEKEAQSKMGKGPQIIVYDASMVSHKGLRDAVVATAEEAGIPYQFD    293
                     ...|.....|.|.||.|::::||||.:              |||:|.:|.
KV116_HUMAN       28 DISIFLNWYQQKPGKAPKLLIYDASKL--------------EAGVPSRFS     63

YSDC_BACSU       294 AIAGGGTDSGAIHLTANGVPALSITIATRYIHTHAAMLHRDDYENAVKLI    343
                     . .|.|||   ...|.:.:....  |||.|.         ..::| :.|.
KV116_HUMAN       64 G-TGSGTD---FTFTISSLQPED--IATYYC---------QQFDN-LPLT     97

YSDC_BACSU       344 TEVIKKLDRKTVDEITYQ    361
                     .....|:|.|.       
KV116_HUMAN       98 FGGGTKVDFKR-------    108


#---------------------------------------
#---------------------------------------

Командой water sw:p94521 sw:p01608 YSDC_BACSU,KV116_HUMAN.water получила оптимальное частичное выравнивание:

# Aligned_sequences: 2
# 1: YSDC_BACSU
# 2: KV116_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 11.0
# Extend_penalty: 1.0
#
# Length: 49
# Identity:      18/49 (36.7%)
# Similarity:    25/49 (51.0%)
# Gaps:          15/49 (30.6%)
# Score: 73.0
# 
#
#=======================================

YSDC_BACSU       253 QSKMGKGPQIIVYDASMVSHKGLRDAVVATAEEAGIPYQFDAIAGGGTD    301
                     |.|.||.|::::||||.:              |||:|.:|.. .|.|||
KV116_HUMAN       37 QQKPGKAPKLLIYDASKL--------------EAGVPSRFSG-TGSGTD     70


#---------------------------------------
#---------------------------------------

Для этих выравниваний установила штраф за открытие пробела 11, за продолжение пробела – 1 (как в BLASTp).

А вот выравнивание из предыдущего задания:

Сравним выравнивание из задания 2 с оптимальным полным выравниванием. Координаты последовательностей в выбранном фрагменте (присутствующем в обоих выравниваниях): 253-301 для запроса и 37-70 для находки.

Меры совпадения для первого и второго равны 100%, выравнивания на этом фрагменте совершенно одинаковы.

Вес всего полного выравнивания=30,а вес выравнивания BLASTp = 73, т.к. полное выравнивание очень невыгодно в этом плане: много пробелов. Длина глобального выравнивания = 368, длина выравнивания BLASTp = 49.

Сравним оптимальное частичное выравнивание и выравнивание BLASTp. Можно сказать только то, что они совершенно одинаковы.


© Фоменко Елена.