Программа BLAST

Поиск гомологов RBL1_HALNC в Swissprot

Таблица 1. Используемые параметры программы BLAST

Database UniprotKB/Swiss-Prot
Algorithm blastp
Max target sequences 100
Expect threshold 0.1
Word size 3
Matrix BLOSUM62
Gap Costs Existance:11, Extension:1
Compositional adjustments Conditional compositional score matrix adjustment
Low comlexity regions off

Выдача программы BLAST в случае поиска гомологичных RBL1_HALNC белков: посмотреть

Результаты множественного выравнивания некоторых белков из выдачи программы BLAST: посмотреть
В данном случае все белки гомологичны, так как в выравнивании встречается большое множество протяженных консервативных во всех белках, также на это может указывать тот фак, что приведённые последовательности имеют относительно высокий процент идентичности (75%-90%) и близкий к нулю E-value.

Рис. 1. Множественное выравнивание гомологов большой субъединицы Рубиско.

Поиск в Swissprot гомологи зрелого вирусного белка, вырезанного из полипротеина

Таблица 2. Параметры белка из полипротеина

ID AC Virus Chain name Chain coordinates
R1AB_CVHN2 P0C6X3 Human coronavirus HKU1 (isolate N2) (HCoV-HKU1) RNA-directed RNA polymerase 4428-5355

Последовательность белка из полипротеина: посмотреть

Выдача программы BLAST: посмотреть

Результаты множественного выравнивания некоторых белков из выдачи программы BLAST: посмотреть

Рис. 1. Множественное выравнивание гомологов большой субъединицы Рубиско.

Исследование зависимости E-value от объёма банка

Таблица 3.Параметры выбранного для сравнения резульата

ID AC Virus E-value (all DB) E-value (searched within viruses)
POLG_ZYMVR Q89330.1 Zucchini yellow mosaic virus (strain Reunion Island) 0.076 0.003

Согласно тому, как считают E-value, отношение двух E-value для одного белка равно отношению размеров соответствующих баз данных. Таким образом, 0,39% (0,003/0,076=0,039) базы данных Swiss-Prot содержит записи о белках вирусов.

Поиск "гомологов" бессмысленной последовательности

Последовательность: TGLFCRHRVWAPLNRSYIWGVTWWGPVNLRSIKADKFRIYRTLCINDVDWCMDAG (55 a.o.)

Количество найденных белков: 2

Выдача программы BLAST: посмотреть

В данном запросе у всех найденных белков E-value больше 1, что не удивительно, так как наша последовательность случайна.

Последовательность: NMIWLPAVYDWSTCFARTWIDVDPILLCDYQFWCQIFLTN (40 a.o.)

Количество найденных белков: 1

Выдача программы BLAST: посмотреть

E-value: 7.3

Аналогичная предыдущей ситуация.

Таким образом, при работе BLAST со случайными последовательностями получаются результаты с высоким E-value, что ожидаемо.