Создание семейства гомологов средствами PSI-BLAST




Мы будем работать с белком ID Q1AHR3, который кодируюет BCL-2 подобный белок шимпанзе (Pan troglodytes), полученным из предложенного списка случайным образом. Осуществим поиск используя PSI-BLAST с порогом E-value 0.005 по базе данных Refseq. Получим два блока: хорошие результаты(ниже порога), выделим хорошие находки, принимая во внимание описания хитов, здравый смысл и следя за возникновением "ступеньки" в значениях E-value (значительная разница в несколько порядков). Запускаем алгоритм снова и снова до стабилизации результата очередного раунда (итерации), т.е. список находок выше порога совпадает со списком последовательностей, поданных на вход. В результате получаем следующую таблицу:
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 11 XP_003476407.1 2e-14 WP_000741605.1 6.4
2 13 YP_002504308.1 0.006 YP_005335608.1 0.005
3 13 YP_002504308.1 8e-04 XP_003003251.1 0.042
4 13 YP_002504308.1 0.001 XP_003003251.1 0.045
5 13 YP_002504308.1 0.001 XP_003003251.1 0.049

Видно, что уже после 3 итерации происходит стабилизация результата. Хотя поиск выдал 13 возможных гомологов, выборка составит всего 11, поскольку между 12 и 11 последовательностью слишком большой разрыв E-value (29 порядков). После этого нажав на Multiple alignment получим множественное выравнивание выборки. Сохраним результаты в формате fasta, предварительно изменив параметр Conservation settings со значения 2bits на 4bits. Ниже можно увидеть это выравнивание, раскрашенное в JalView:




Как видим, выравнивание получилось весьма качественное, поскольку содержит большое число консерввативных участков.