Домен BLM10_N представляет собой N-концевую упорядоченную область в дрожжевом протеасомном активаторе BLM10. BLM10 окружает входную пору протеасомы в комплексе протеасомы и BLM10, образуя закрытый купол, который, вероятно, ограничивает доступ потенциальных субстратов. BLM10 специфически распознает ацетилированные гистоны и способствует АТФ- и убиквитин-независимой деградации ядерных гистонов в ответ на повреждение ДНК. Гомолог белка BLM10 у человека — PA200.
Выравнивание seed для данного семейства содержит 56 последовательностей. Для описания мотива был составлен следующий паттерн: LP[YF]..E.{11}[VIL]{2}..LY[VIL].[VIL]
Он присутсвует в 41 из 56 последовательностей.
Паттерн в формате Prosite: L-P-[YF]-x(2)-E-x(11)-[VIL](2)-x(2)-L-Y-[VIL]-x-[VIL]
При поиске в базе SwissProt с помощью сайта MyHits по паттерну была найдена лишь одна находка — BLM10_YEAST. Такое количество находок говорит как о том, что в SwissProt практически нет (а именно всего 1) последовательностей белка BLM10 из Ascomycota, так и о том, что, видимо, данный паттерн характерен только для них.
В Jalview с помощью алгоритма NJ было построено филогенетическое дерево для последовательностей seed (рис. 1). Далее, для клады, отмеченной на рисунке розовым цветом, был найден характерный мотив R.RPRT.PY.{4}PY, но оказалось, что он также присутсвует в кладе, отмеченнной на рисунке зеленым цветом. В других ветках данного паттерна нет. Следовательно, есть основания пологать, что данные клады могли быть ошибочно разнесены.
Для данного задания был выбран белок MinC из бактерии Prochlorococcus marinus с идентификатором Q7VDL2. Данный белок является ингибитором деления клеток, блокирующим образование полярных Z-кольцевых перегородок.
Был запущен psi-blast с параметрами по умолчанию, после третьей итерации новых находок выше порога обнаружено не было. Все правильные находки представляют собой белки с одинаковым названием "Probable septum site-determining protein MinC".
Номер итерации | Число находок выше порога | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 7e-8 | --- | --- |
3 | 146 | Q9AG20.1 | 2e-12 | A7H8E6.1 | 0.014 |
Так как в выбранном ранее домене всего 1 последовательность в SwissProt, то для этого задания возьмем домен GCV_T_C. Это С-концевой бочкообразный домен Т-белка, Т-белок входит в состав мультиферментного комплекса расщепления глицина, обнаруженного в бактериях и митохондриях эукариот.
Из 353 последовательностей белков из SwissProt с этим доменов с помощью remove redundancy было отобрано 107 последовательностей. С ними был запущен MEME и затем FIMO уже для всех 353 последовательностей.
meme protein-PF08669-reduced.fa -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4
fimo meme_results/meme.txt protein-PF08669.fasta
Выдачи программ: HTML output MEME, HTML output FIMO
В этом практикуме снова возьмем Thermus thermophilus HB8.
Ссылка на аннотированную геномную сборку
С помощью скрипта были посчитаны контрасты obs/exp по методу Карлина для этого сайта GATC, а также для всех сайтов длины 4, полученных перестановками (без повторений) букв A, T, G, C (рис. 2). Сайты GATC представлены в геноме в том же количестве, которое статистически ожидалось.