Для выполнения этого задания я выбрал домен PF00010 (спираль-поворот-спираль ДНК связывающий домен). Выборка seed соддержит 133 последовательности. При помощи Jalview я нашел мотив E[RKQ].[RYL].{3}[ILMV][NKR].{2}[FLI].{2}L.{4}P - он встречается в выравнивании 70 раз, все находки друг под другом. Далее этот мотив был переведен в формат Prosite - E-[RKQ]-x-[RYL]-x(3)-[ILMV]-[NKR]-x(2)-[FLI]-x(2)-L-x(4)-P. При поиске этого паттерна в PROSITE по бд SwissProt получилось 497 находок. По количеству находок в обоих случаях можно сказать, что мотив не консервативен и довольно редко встречается. Это может быть связано с большой длиной мотива.
В дальнейшем я построил дерево алгоритмом NJ в Jalview и выбрал кладу из 75 последовательностей для анализа ( клада показана на филогенетическом дереве внизу красным цветом). В этой кладе я нашел мотив [RK].{2}[HK].{3}[E][RKQ].[RY]R.{2}, который встречается в 65 последовательностях из 75 и только друг под другом. Далее я попробовал найти этот мотив во всей выборке seed и оказалось, что мотив встречается только внутри этой клады. Это говорит о том, что мотив специфичен для выбранной клады.
Для этого задания я методом тыка выбрал АС P17265. Это фактор регуляции трансляции Sinorhizobium meliloti, он вызывает димеризацию 70S рибосом в 100S, которая не способна осуществлять трансляцию. Этот фактор иногда присутствует в фазу экспоненциального роста. Для этого белка я запустил PSI-Blast и он сошелся за 4 итерации, находки вероятно составляют одно семейство, так как E-value у находок находится в пределах 5*10-74-3*10-18.
Табл 1, PSI-BLAST
N итерации | Число находок ниже порога | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 17 | Q05886.4 | 0.046 | P17265.2 | 10-142 |
2 | 27 | - | - | P17265.2 | 2*10-77 |
3 | 28 | - | - | P17265.2 | 10-73 |
4 | 28 | - | - | Q5HQX7.1 | 5*10-74 |
Для этого задания я взял белки с доменом PF00010 (из заданий 1-2) статуса reviewed. Всего получислось 758 белков, 110 белков я отложил в выборку для обучения, 648 оставил для теста. Далее я запускал программы MEME и FIM как указано в подсказках. Результаты доступны по ссылкам: MEME, FIMO. Программа MEME нашла 4 мотива - ERRRREKJ, KLDKASIL, AISYIKSL, QQQQQQ, причем качество довольно высокое, самое высокое E-value 1.7*10-058. Программа FIMO в свою очередь нашла 2474 мотива в тестовой выборке (т.е каждый мотив почти в каждой последовательности). Можно сделать вывод, что найденные мотивы действительно имеют место быть.
Для этого задания я взял геном бактерии, для которой делал миниобзор на первом курсе - Bacteroides faecis strain BFG-108. Я запустил команду:
$cbcalc -s sites.ltxt -M -o GATC.txt GCF_020091505.1_ASM2009150v1_genomic.fna.gz
Далее я построил гистограмму контрастов в питоне, рисунок представлен ниже. Как видно, наименее представлены сайты GATC и CTAG, которые являются одним и тем же палиндромом (т.е они оба GATC, только один на прямой цепи, а второй на обратной). Итого, сайт GATC действительно недопредставлен в геноме бактерии (скажем спасибо метилазе dam, которая метилирует аденин в GATC).