Для выполнения этого практикума был выбран домен PF00427. Этот домен встречается у белков, связывающих элементы фикобилисом у цианобактерий и красных водорослей. Выравнивание seed содержит 170 последовательностей, после удаления похожих друг на друга более чем на 80% осталось 127.
Рис.1. Фрагмент выравнивания; цветом выделены наиболее консервативные (Identity Threshold 91%) позиции.
Как видно из выравнивания, наиболее консервативные мотивы имеет смысл искать в конце последовательностей. Мотив EY...FG...VP встречается у 114 последовательностей; с помощью Prosite по нему был проведен поиск в базе данных SwissProt, выявлено 66 совпадений в 45 последовательностях. Эти последовательности были выровнены, после выравнивания мотив сохранился во всех 66 случаях.
По выравниванию на основе seed было построено методом NJ филогенетическое дерево, в нем выбрана клада из 8 белков. Во всех 8 встречается мотив [IM]HR[RK]LLGRPT, при этом ни в одной последовательности вне этой клады такой мотив не был найден. Впрочем, фрагмент этого мотива LGR стабилен у 98% всех последовательностей выравнивания, можно предположить, что весь этот участок вообще довольно консервативен, хотя именно такой его вариант встречается только в данной кладе.
Рис.2. Дерево белковых последовательностей; красным цветом выделены выбранная клада.
Для поиска мотивов de novo методом MEME было скачено и выровнено 137 последовательностей, относящихся к роду Nostoc, из них отобрано 85, сходных менее чем на 100%.
Было выявлено 4 мотива, встречающихся 688 раз с p-value менее 0.0001. Как правило они располагаются в белке в определенной последовательности: сначала третий (ISVREFYR), затем второй ([YF][RK][HQ][LV]LGRA - по-видимому, тот же мотив, который был мною выявлен в кладе из выравнивания seed), четвертый ([AS][LYI][IV]DS.EY) и первый (FGE[DN][TI]VPY - вероятно, мотив, выявленный мной в выравнивании seed).
Я выбрал Q67XL4 - РНК-связывающий белок хлоропластов Arabidopsis thaliana. После двух итераций поиска по базе данных SwissProt с помощью PSI-BLAST результаты полностью совпали. Разница между лучшей находкой ниже порога и худшей находкой выше порога невелика (0.008); кроме того, судя по названиям и функциям найденных белков, к одному семейству (CRM-содержащие белки) принадлежат первые семь (для них также наблюдается отрыв в E-value: у седьмой находки 1e-19, а у восьмой 7e-15); восьмой, девятый и десятый - к другому (факторы сплайсинга CRS1; E-value от 7е-15 до 4е-14), остальные же, включая тот, E-value которого ниже порога - к третьему (белки, ассоциированные с фактором сплайсинга CRS2; E-value от 3е-7).
| Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
| 1 | 18 | Q9FFU1.1 | 0.004 | Q9SL79.2 | 0.012 |
| 2 | 18 | Q9FFU1.1 | 0.004 | Q9SL79.2 | 0.012 |
Табл.1. Выдача PSI-BLAST.
Для оценки представленности GATC и других четырехбуквенных последовательностей без повтора нуклеотидов была использована программа cbcalc.
| Site | Observed | Expected (BCK) | O/E ratio (BCK) | Total |
| GATC | 4310 | 6122.56 | 0.704 | 1896100 |
| ACGT | 6452 | 6576.58 | 0.981 | 1896100 |
| ACTG | 5086 | 4773.52 | 1.065 | 1896100 |
| AGCT | 12250 | 12152.18 | 1.008 | 1896100 |
| AGTC | 5513 | 5333.54 | 1.034 | 1896100 |
| ATCG | 5863 | 6332.74 | 0.926 | 1896100 |
| ATGC | 4923 | 4454.43 | 1.105 | 1896100 |
| CAGT | 5152 | 4855.31 | 1.061 | 1896100 |
| CATG | 5511 | 5708.64 | 0.965 | 1896100 |
| CGAT | 5771 | 6368.62 | 0.906 | 1896100 |
| CGTA | 4625 | 3904.58 | 1.185 | 1896100 |
| CTAG | 1863 | 4024.52 | 0.463 | 1896100 |
| CTGA | 8469 | 8610.27 | 0.984 | 1896100 |
| GACT | 5604 | 5342.36 | 1.049 | 1896100 |
| GCAT | 4780 | 4360.20 | 1.096 | 1896100 |
| GCTA | 4722 | 4729.86 | 0.998 | 1896100 |
| GTAC | 5043 | 4955.27 | 1.018 | 1896100 |
| GTCA | 6266 | 5885.30 | 1.065 | 1896100 |
| TACG | 4733 | 3926.34 | 1.205 | 1896100 |
| TAGC | 4675 | 4696.20 | 0.995 | 1896100 |
| TCAG | 8675 | 8760.34 | 0.990 | 1896100 |
| TCGA | 8632 | 10110.22 | 0.854 | 1896100 |
| TGAC | 6156 | 5801.73 | 1.061 | 1896100 |
| TGCA | 3839 | 3998.18 | 0.960 | 1896100 |
Табл.2. Выдача cbcalc.
Можно сделать вывод, что сайт GATC недопредставлен, из рассмотренных здесь только у CTAG отношение Observed/Expected еще ниже.