1. Карта локального сходства двух полипротеинов

Рисунок 1. Карта локального сходства полипротеинов P03300 и P03306

На рисунке 1 изображена карта локального сходства полипротеинов P03300 и P03306, полученная в результе работы программы BLAST[0]. Количество "черточек" на карте соответсвует количеству локальных выравниваний, обнаруженных с помощью BLAST. В таблице 1 приведены характеристики двух лучших выравниваний.

Alignment AC Protein name Identities Positives Length Gaps Score Bit Score
1684 to 2327 P03300 Protein 3CD 29% 48% 615 59 (8%) 638 250
P03306 Genome polyprotein 644
1121 to 1383 P03300 Protein 2C 37% 51% 277 26 (9%) 397 157
P03306 Protein 2C 263

Таблица 1. Характеристики двух лучших локальных выравниваний полипротеинов P03300 и P03306

2. Сравнение веса выравнивания со случайным

Type ID Score Median* Upper quartile* Bit Score p-value
homologous THIC_ECOLI & THIC_BACSU 2156.0 59.75 67.25 280.5 3.64·10-85
non-homologous TRAP_ECOLI & FADE_BACSU 32.0 37 41.5 1.53 0.35

Таблица 2. Характеристики выравниваний двух предположительно гомологичных белков и двух предположительно неродственных белков

*Значения медианы и верхнего квартиля весов были рассчитаны для "случайных" выравниваний - оптимальных локальных выравниваний последовательности первого белка пары со 100 перемешанными программой shuffleseq последовательностями второго.

2a. Эффект смены параметров

ID Gap extension penalty Score Median Upper quartile Bit Score p-value
THIC_ECOLI & THIC_BACSU 4 2032 36 39 666.3
TRAP_ECOLI & FADE_BACSU 4 29 31 34 0.33 0.79

Таблица 3. Характеристики выравниваний двух предположительно гомологичных белков и двух предположительно неродственных белков с увеличенным штрафом за удлинение инделя (Gap extension penalty)

В Таблице 3 приведены характеристики двух выравниваний, аналогичных выравниваниям из упражнения 2, но с увеличенным до четырех штрафом за удлинение инделя. Сравнивая данные таблиц 2 и 3, можно заметить увеличение bit score первой пары с 280.5 до 666.3 и уменьшение bit score второй с 1.53 до 0.33. Используя новые данные при рассчете p-значения для гомологичных белков, мы получаем значение, практически равное нулю, а для неродственых - очень близкое к единице. С увеличением штрафа за удлинение инделя длина выравнивания неродственных белков (с неперемешанными последовательностями) уменьшилась с 69 до 10, что можно рассматривать как еще один аргумент в пользу предположения об отсутствии гомологии между ними.

3. BLAST: поиск гомологов в банке

ID AC Identities Positives Length Gaps Score Bit Score Excpect % Coverage
NIFD_HERSE P77874.1 99% 99% 484 0 2570 994 0.0 100%
NIFD_BRASP P06120.1 83% 91% 482 2 2214 857 0.0 96.4%

Таблица 4. Характеристика выравниваний белка ALU89561.1 и его гомологов, найденных с помощью программы BLAST