Учебный сайт Ивана Федорова


Практикум 10

1. Поиск консервативных мотивов.

Для выполнения этого практикума был выбран домен PF00427. Этот домен встречается у белков, связывающих элементы фикобилисом у цианобактерий и красных водорослей. Выравнивание seed содержит 170 последовательностей, после удаления похожих друг на друга более чем на 80% осталось 127.

Bootstrap

Рис.1. Фрагмент выравнивания; цветом выделены наиболее консервативные (Identity Threshold 91%) позиции.

Как видно из выравнивания, наиболее консервативные мотивы имеет смысл искать в конце последовательностей. Мотив EY...FG...VP встречается у 114 последовательностей; с помощью Prosite по нему был проведен поиск в базе данных SwissProt, выявлено 66 совпадений в 45 последовательностях. Эти последовательности были выровнены, после выравнивания мотив сохранился во всех 66 случаях.

По выравниванию на основе seed было построено методом NJ филогенетическое дерево, в нем выбрана клада из 8 белков. Во всех 8 встречается мотив [IM]HR[RK]LLGRPT, при этом ни в одной последовательности вне этой клады такой мотив не был найден. Впрочем, фрагмент этого мотива LGR стабилен у 98% всех последовательностей выравнивания, можно предположить, что весь этот участок вообще довольно консервативен, хотя именно такой его вариант встречается только в данной кладе.

Bootstrap

Рис.2. Дерево белковых последовательностей; красным цветом выделены выбранная клада.

Для поиска мотивов de novo методом MEME было скачено и выровнено 137 последовательностей, относящихся к роду Nostoc, из них отобрано 85, сходных менее чем на 100%.

Выдача МЕМЕ.

Выдача FIMО.

Было выявлено 4 мотива, встречающихся 688 раз с p-value менее 0.0001. Как правило они располагаются в белке в определенной последовательности: сначала третий (ISVREFYR), затем второй ([YF][RK][HQ][LV]LGRA - по-видимому, тот же мотив, который был мною выявлен в кладе из выравнивания seed), четвертый ([AS][LYI][IV]DS.EY) и первый (FGE[DN][TI]VPY - вероятно, мотив, выявленный мной в выравнивании seed).

2. PSI-BLAST.

Я выбрал Q67XL4 - РНК-связывающий белок хлоропластов Arabidopsis thaliana. После двух итераций поиска по базе данных SwissProt с помощью PSI-BLAST результаты полностью совпали. Разница между лучшей находкой ниже порога и худшей находкой выше порога невелика (0.008); кроме того, судя по названиям и функциям найденных белков, к одному семейству (CRM-содержащие белки) принадлежат первые семь (для них также наблюдается отрыв в E-value: у седьмой находки 1e-19, а у восьмой 7e-15); восьмой, девятый и десятый - к другому (факторы сплайсинга CRS1; E-value от 7е-15 до 4е-14), остальные же, включая тот, E-value которого ниже порога - к третьему (белки, ассоциированные с фактором сплайсинга CRS2; E-value от 3е-7).

Номер итерацииЧисло находок выше порога (0,005)Идентификатор худшей находки выше порогаE-value этой находкиИдентификатор лучшей находки ниже порогаE-value этой находки
118Q9FFU1.10.004Q9SL79.20.012
218Q9FFU1.10.004Q9SL79.20.012

Табл.1. Выдача PSI-BLAST.

3. Оценка представленности GATC в геноме Thermococcus peptonophilus.

Для оценки представленности GATC и других четырехбуквенных последовательностей без повтора нуклеотидов была использована программа cbcalc.

SiteObservedExpected (BCK)O/E ratio (BCK)Total
GATC43106122.560.7041896100
ACGT64526576.580.9811896100
ACTG50864773.521.0651896100
AGCT1225012152.181.0081896100
AGTC55135333.541.0341896100
ATCG58636332.740.9261896100
ATGC49234454.431.1051896100
CAGT51524855.311.0611896100
CATG55115708.640.9651896100
CGAT57716368.620.9061896100
CGTA46253904.581.1851896100
CTAG18634024.520.4631896100
CTGA84698610.270.9841896100
GACT56045342.361.0491896100
GCAT47804360.201.0961896100
GCTA47224729.860.9981896100
GTAC50434955.271.0181896100
GTCA62665885.301.0651896100
TACG47333926.341.2051896100
TAGC46754696.200.9951896100
TCAG86758760.340.9901896100
TCGA863210110.220.8541896100
TGAC61565801.731.0611896100
TGCA38393998.180.9601896100

Табл.2. Выдача cbcalc.

Можно сделать вывод, что сайт GATC недопредставлен, из рассмотренных здесь только у CTAG отношение Observed/Expected еще ниже.