Создание семейства гомологов средствами PSI-BLAST
Мы будем работать с белком ID Q1AHR3, который кодируюет BCL-2 подобный белок шимпанзе (Pan troglodytes), полученным из предложенного списка случайным образом. Осуществим поиск используя PSI-BLAST с порогом E-value 0.005 по базе данных Refseq. Получим два блока: хорошие результаты(ниже порога), выделим хорошие находки, принимая во внимание описания хитов, здравый смысл и следя за возникновением "ступеньки" в значениях E-value (значительная разница в несколько порядков). Запускаем алгоритм снова и снова до стабилизации результата очередного раунда (итерации), т.е. список находок выше порога совпадает со списком последовательностей, поданных на вход. В результате получаем следующую таблицу:
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 11 | XP_003476407.1 | 2e-14 | WP_000741605.1 | 6.4 |
2 | 13 | YP_002504308.1 | 0.006 | YP_005335608.1 | 0.005 |
3 | 13 | YP_002504308.1 | 8e-04 | XP_003003251.1 | 0.042 |
4 | 13 | YP_002504308.1 | 0.001 | XP_003003251.1 | 0.045 |
5 | 13 | YP_002504308.1 | 0.001 | XP_003003251.1 | 0.049 |
Видно, что уже после 3 итерации происходит стабилизация результата. Хотя поиск выдал 13 возможных гомологов, выборка составит всего 11, поскольку между 12 и 11 последовательностью слишком большой разрыв E-value (29 порядков). После этого нажав на Multiple alignment получим множественное выравнивание выборки. Сохраним результаты в формате fasta, предварительно изменив параметр Conservation settings со значения 2bits на 4bits. Ниже можно увидеть это выравнивание, раскрашенное в JalView:
Как видим, выравнивание получилось весьма качественное, поскольку содержит большое число консерввативных участков.