1. Карта локального сходства двух полипротеинов

P06210 принадлежит вирусу полиомиелита, P49303 - вирусу ящура.

Характеристики двух лучших выравниваний

% Identity % Similarity (Positives) Gaps Length 1 (P49303) Length 2 (P06210) Score Score, bits Mature protein(s) 1 Mature protein(s) 2
29 48 59 644 615 648 254 Picornain 3C, RNA-directed RNA polymerase 3D-POL P3, Protein 3CD, Protease 3C, RNA-directed RNA polymerase
48 60 5 180 177 394 156 Protein 2C Protein 2C

2. Сравнение веса выравнивания со случайным

Пара предположительно гомологичных белков

IDs Score Медиана случайных выравниваний Верхний квартиль случайных выравниваний Score, bits p-value
ACP_ECOLI, ACP_BACSU 216 37,5 42 41 5,73e-13

Пара предположительно неродственных белков

IDs Score Медиана случайных выравниваний Верхний квартиль случайных выравниваний Score, bits p-value
LEP_ECOLI, RADA_BACSU 34,5 46 51,5 0,027* 0,94

Выравнивание оказалось настолько плохим, что почти любое случайное получается лучше него, и по формуле получается отрицательный вес, что не имеет смысла, так как p-value, как вероятность, не может быть больше 1. Для расчёта веса в битах сначала был определён p-value (среди 100 случайных выравниваний 94 имеют больший вес, чем исходное), а потом посчитан вес.

2а. Эффект смены параметров

При замене штрафа за продление гэпа (Gap penalty) с 0.5 на 4 вес исходного выравнивания ACP_ECOLI c ACP_BACSU не меняется, тогда как медиана весов случайных выравниваний падает до 31, а верхний квартиль - до 36. Таким образом, новый вес в битах - 38. Разумно, что такая модификация параметра снижает вес выравнивания в битах: в случайных выравниваниях мы ожидаем увидеть больше "инделей", больший штраф за продление гэпа вполне закономерно снижает их вес.

2b. Проверка формулы для перевода в биты

После 1000 перемешиваний последовательности ACP_BACSU и выравнивания полученных случайных последовательностей с ACP_ECOLI наблюдались следующие результаты: медиана весов случайных выравниваний - 36,5; верхний квартиль - 41,5; верхнюю 1/8 составляют веса, большие или равные 45,5. Проверим, что вес 45,5 в битах примерно равен 3. После подстановки в формулу получаем 2,8.

3. BLAST: поиск гомологов в банке

AC ID Organism % Identity % Similarity (Positives) Gaps Length 1 Length 2 Score Score, bits Expect Coverage, %
Q56991 HMUT_YERPE Yersinia pestis 40 59 12 263 251 488 192 1e-58 86
O34805 YVRC_BACSU Bacillus subtilis subsp. subtilis str. 168 27 45 15 258 247 79,3 194 1e-15 84

© Быкова Даша, 2018