Для этого практикума я выбрала домен PF09239, который является бета-субъединицей топоизомеразы VI. Его seed содержит 67 последовательностей, выравнивание которых вы можете увидеть здесь.
Я открыла этот файл в Jalview и, установив порог Identity Threshold равный 100%, определила консервативный мотив R[YF][AV]N[RK].PL, встречающийся в 66 последовательностях из 68.
Далее я выполнила поиск этого мотива с помощью ресурса MyHits. Выдача состояла из 32 белков, все из которых являлись бета-субъединицей топоизомеразы VI. Видимо, этот мотив является важным для работы этого фермента и хорошо описывает этот класс белков.
На основании выравнивания было построено дерево алгоритмом NJ. В получившемся дереве я выбрала кладу, выделенную темно-синим цветом и включающую 13 последовательностей
Для этой ветви я уточнила мотив до RFANRVPL.YQ[QR]G[GA]C[AV][IT][TV].{33,37}PFT.ESKDA. Если выполнить поиск по этому мотиву, то находятся только 13 искомых последовательностей, то есть он специфичен для этой клады
Для работы с PSI-BLAST я выбрала AC C4Z088. Результаты последовательных запусков приведены в таблице.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор худшей находки выше порога | E-value этой находки |
---|---|---|---|---|---|
1 | 162 | Q2P036.1 | 0.004 | Q5F5V4.1 | 0.005 |
2 | 188 | O25693.2 | 2e-09 | - | - |
3 | 188 | O25693.2 | 2e-11 | A7H8E6.1 | 0.012 |
4 | 188 | Q9ZM51 | 5e-13 | A7H8E6.1 | 0.016 |
Уже после второго запуска количество находок перестало увеличиваться, а разница между худшей находкой выше порога и лучше находкой ниже составила 9 порядков на третьей итерации. Это говорит о том, что группа белков достаточно хорошо обособлена.