Мотивы в белках

Консервативный мотив в выравнивании гомологичных белков

Домен BLM10_N представляет собой N-концевую упорядоченную область в дрожжевом протеасомном активаторе BLM10. BLM10 окружает входную пору протеасомы в комплексе протеасомы и BLM10, образуя закрытый купол, который, вероятно, ограничивает доступ потенциальных субстратов. BLM10 специфически распознает ацетилированные гистоны и способствует АТФ- и убиквитин-независимой деградации ядерных гистонов в ответ на повреждение ДНК. Гомолог белка BLM10 у человека — PA200.

Выравнивание seed для данного семейства содержит 56 последовательностей. Для описания мотива был составлен следующий паттерн: LP[YF]..E.{11}[VIL]{2}..LY[VIL].[VIL]
Он присутсвует в 41 из 56 последовательностей.

Паттерн в формате Prosite: L-P-[YF]-x(2)-E-x(11)-[VIL](2)-x(2)-L-Y-[VIL]-x-[VIL]

При поиске в базе SwissProt с помощью сайта MyHits по паттерну была найдена лишь одна находка — BLM10_YEAST. Такое количество находок говорит как о том, что в SwissProt практически нет (а именно всего 1) последовательностей белка BLM10 из Ascomycota, так и о том, что, видимо, данный паттерн характерен только для них.

Мотив, специфичный для одной клады филогенетического дерева

В Jalview с помощью алгоритма NJ было построено филогенетическое дерево для последовательностей seed (рис. 1). Далее, для клады, отмеченной на рисунке розовым цветом, был найден характерный мотив R.RPRT.PY.{4}PY, но оказалось, что он также присутсвует в кладе, отмеченнной на рисунке зеленым цветом. В других ветках данного паттерна нет. Следовательно, есть основания пологать, что данные клады могли быть ошибочно разнесены.

-
Рис. 1. Дерево для последовательной seed домена BLM10_N, построеннное алгоритмом NJ. Описание выделенных клад в тексте.

PSI-BLAST

Для данного задания был выбран белок MinC из бактерии Prochlorococcus marinus с идентификатором Q7VDL2. Данный белок является ингибитором деления клеток, блокирующим образование полярных Z-кольцевых перегородок.

Был запущен psi-blast с параметрами по умолчанию, после третьей итерации новых находок выше порога обнаружено не было. Все правильные находки представляют собой белки с одинаковым названием "Probable septum site-determining protein MinC".

Таблица 1. Результаты итераций PSI-BLAST, порог 0.005
Номер итерации Число находок выше порога Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 7e-8 --- ---
3 146 Q9AG20.1 2e-12 A7H8E6.1 0.014

Поиск мотивов de novo в выборке поледовательностей с доменом из SwissProt

Так как в выбранном ранее домене всего 1 последовательность в SwissProt, то для этого задания возьмем домен GCV_T_C. Это С-концевой бочкообразный домен Т-белка, Т-белок входит в состав мультиферментного комплекса расщепления глицина, обнаруженного в бактериях и митохондриях эукариот.

Из 353 последовательностей белков из SwissProt с этим доменов с помощью remove redundancy было отобрано 107 последовательностей. С ними был запущен MEME и затем FIMO уже для всех 353 последовательностей.

meme protein-PF08669-reduced.fa -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4
fimo  meme_results/meme.txt protein-PF08669.fasta

Выдачи программ: HTML output MEME, HTML output FIMO

Оценка представленности сайта GATC в геноме Thermus thermophilus HB8

В этом практикуме снова возьмем Thermus thermophilus HB8.
Ссылка на аннотированную геномную сборку

С помощью скрипта были посчитаны контрасты obs/exp по методу Карлина для этого сайта GATC, а также для всех сайтов длины 4, полученных перестановками (без повторений) букв A, T, G, C (рис. 2). Сайты GATC представлены в геноме в том же количестве, которое статистически ожидалось.

-
Рис. 2. Гистограмма представленности для всех сайтов длины 4, полученных перестановками (без повторений) букв A, T, G, C.