Рисунок 1. Карта локального сходства полипротеинов P03300 и P03306
На рисунке 1 изображена карта локального сходства полипротеинов P03300 и P03306, полученная в результе работы программы BLAST[0]. Количество "черточек" на карте соответсвует количеству локальных выравниваний, обнаруженных с помощью BLAST. В таблице 1 приведены характеристики двух лучших выравниваний.
Alignment | AC | Protein name | Identities | Positives | Length | Gaps | Score | Bit Score |
1684 to 2327 | P03300 | Protein 3CD | 29% | 48% | 615 | 59 (8%) | 638 | 250 |
P03306 | Genome polyprotein | 644 | ||||||
1121 to 1383 | P03300 | Protein 2C | 37% | 51% | 277 | 26 (9%) | 397 | 157 |
P03306 | Protein 2C | 263 |
Таблица 1. Характеристики двух лучших локальных выравниваний полипротеинов P03300 и P03306
Type | ID | Score | Median* | Upper quartile* | Bit Score | p-value |
homologous | THIC_ECOLI & THIC_BACSU | 2156.0 | 59.75 | 67.25 | 280.5 | 3.64·10-85 |
non-homologous | TRAP_ECOLI & FADE_BACSU | 32.0 | 37 | 41.5 | 1.53 | 0.35 |
Таблица 2. Характеристики выравниваний двух предположительно гомологичных белков и двух предположительно неродственных белков
ID | Gap extension penalty | Score | Median | Upper quartile | Bit Score | p-value |
THIC_ECOLI & THIC_BACSU | 4 | 2032 | 36 | 39 | 666.3 | |
TRAP_ECOLI & FADE_BACSU | 4 | 29 | 31 | 34 | 0.33 | 0.79 |
Таблица 3. Характеристики выравниваний двух предположительно гомологичных белков и двух предположительно неродственных белков с увеличенным штрафом за удлинение инделя (Gap extension penalty)
В Таблице 3 приведены характеристики двух выравниваний, аналогичных выравниваниям из упражнения 2, но с увеличенным до четырех штрафом за удлинение инделя. Сравнивая данные таблиц 2 и 3, можно заметить увеличение bit score первой пары с 280.5 до 666.3 и уменьшение bit score второй с 1.53 до 0.33. Используя новые данные при рассчете p-значения для гомологичных белков, мы получаем значение, практически равное нулю, а для неродственых - очень близкое к единице. С увеличением штрафа за удлинение инделя длина выравнивания неродственных белков (с неперемешанными последовательностями) уменьшилась с 69 до 10, что можно рассматривать как еще один аргумент в пользу предположения об отсутствии гомологии между ними.
ID | AC | Identities | Positives | Length | Gaps | Score | Bit Score | Excpect | % Coverage |
NIFD_HERSE | P77874.1 | 99% | 99% | 484 | 0 | 2570 | 994 | 0.0 | 100% |
NIFD_BRASP | P06120.1 | 83% | 91% | 482 | 2 | 2214 | 857 | 0.0 | 96.4% |
Таблица 4. Характеристика выравниваний белка ALU89561.1 и его гомологов, найденных с помощью программы BLAST
*Значения медианы и верхнего квартиля весов были рассчитаны для "случайных" выравниваний - оптимальных локальных выравниваний последовательности первого белка пары со 100 перемешанными программой shuffleseq последовательностями второго.