Таблица 1. Параметры BLAST | General parameters |
---|---|
Max target sequences | 100 |
Expect threshold | 0.05 |
Word size | 3 | Scoring parameters |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11; Extension: 1 |
Compositional adjustments | Conditional compositional score matrix adjustment |
Database - UniProtKB/Swiss-Prot(swissprot), алгоритм - blastp. Также был включён фильтр Low complexity regions. Текстовую выдачу программы можно посмотреть по ссылке.
Множественное выравнивание выданных белков представленно здесь. Я решил оставить все белки, так как у всех довольно большой процент идентичности, и все имеют схожий участок 337-384. Однако белок Haemophilus influenzae Rd KW20 (AC: P44033.1) имеет довольно маленький процент покрытия, из-за чего его гомология с остальными белками под сомнением.
Для данного задания я выбрал полипротеин организма Sleeping disease virus Polyprotein P1234 (ID: POLN_SLDV; AC: Q8QL53). Один из его зрелых белков - mRNA-capping enzyme nsP1(1..561). Текстовая выдача BLAST доступна по ссылке. Здесь приведено выравнивание зрелого белка с последовательностями других гомологичных белков.
Повторив поиск для белка Ser/Thr-protein kinase HipA с фильтром Sinorhizobium/Ensifer group (taxid:227292), я получил только 2 последовательности, принадлежащие данному организму, причем их E-value изменилось с 1e-37 и 2e-14 на 5e-40 и 6e-17 соответственно. Рассчитаем, какую часть банка занимают последовательности принадлежащие Sinorhizobium/Ensifer group (taxid:227292). Из теоремы Карлина мы знаем: E-value = Kmn·e^(-λS). Так как никакие параметры не меняются, и на входе всё та же последовательность, то E1/E2 = n1/n2. Пусть последовательности Sinorhizobium/Ensifer group (taxid:227292) занимают x, тогда E2/E1 = x/n, где n - общая длина последовательностей банка. Подставив значения получаем, что последовательности, принадлежащие Sinorhizobium/Ensifer group (taxid:227292), занимают 0.005 часть банка.