PSI-BLAST
Выбрала случайную последовательность из списка, это оказалась P18196. Провела поиск по банку Refseq proteins, после каждой итерации PSI-BLAST заполняла таблицу 1 (после каждого поиска составляется свой профиль PSSM, который используется в следующем поиске, целью которого является совпадение результатов с последовательностями PSSM). После шестой итерации результат стабилизировался.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 1222 | YP_001275901.1 | 0,004 | WP_005832362.1 | 0,006 |
2 | 1840 | YP_007414978.1 | 0,003 | YP_007272404.1 | 0,011 |
3 | 1846 | WP_005219774.1 | 0,003 | WP_005487704.1 | 0,008 |
4 | 1846 | WP_005219774.1 | 2e-04 | WP_003150364.1 | 0,005 |
5 | 1844 | WP_003150364.1 | 0,002 | YP_004055728.1 | 0,05 |
6 | 1842 | WP_001796119.1 | 3e-04 | WP_003150364.1 | 0,007 |
Таблица 1. Информация об итерациях PSI-BLAST.
Данные Pfam подтверждают правильность состава моего семейства. На рисунке 1 показана диаграмма филогенетического дерева. В данном белке два домена, и в множественном выравнивании есть последовательности, содержащие их оба полностью или частично, что говорит об их гомологичности. В связи с тем, что выравнивание содержит более 1500 последовательностей, провести вручную тщательный отбор невозможно. Ознакомиться с выравниванием можно по ссылке (файл *.aln)
Рисунок 1. Диаграмма филогенетического дерева одного из доменов белка P18196.