~nikitka1369
Главная
Обо мне
Семестры
Первый семестр
Второй семестр
ФББ МГУ
Практикум 10
Для выполнения заданий я выбрал домен PF00067 (цитохромы P450). В выравнивании содержится 50 последовательностей. Вот ссылка для
скачивания
. Я удалил идентичные и очень похожие последовательности и окрасил с помощью clustal по консервативности, выставив порог 95%. Удалось обнаружить консервативный мотив (496-509). Jalview-паттерн мотива: F[SG].G.R.C.G.{3}A. Я провёл поиск по данному паттерну в выравнивании. В итоге нашлось 43 находки из 50. Паттерн в формате Prosite выглядит так: F-[SG]-x-G-x-R-x-C-x-G-x(3)-A. При поиске по данному паттерну в базе SwissProt удалось найти 884 последовательности. В ряду данных находок большинство так или иначе связано с цитохромами P450 (много монооксигеназ, гидроксилаз, лиаз, ароматаз среди найденных белков).
Далее я с помощью метода NJ построил дерево в Jalview по данному выравниванию. Выбрал одну кладу, для которой выделяется ещё один консервативный домен, следующий за найденным ранее (510-524, изображение можно скачать
по ссылке.
Паттерн мотива: M[EQ].FL.{2}[TC].[IL]LQ.F. Он встречается только в данных последовательностях (12 штук).
Для выполнения следующего задания был выбран белок с AC: Q7VDL2 - это белок цианобактерии Prochlorococcus marinus, служащий ингибитором клеточного деления, предотвращающим полимеризацию белка FtsZ. С помощью PSI-BLAST был осуществлён поиск семейства гомологов. Результаты приведены ниже:
Таблица 1.
Итерации PSI-BLAST
№ итерации
Число находок выше порога (0,005)
Идентификатор худшей находки выше порога
E-value этой находки
Идентификатор лучшей находки ниже порога
E-value этой находки
1
146
Q9AG20.1
0.005
A8GFG7.1
0.005
2
188
B6JKX0.1
7e-08
-
-
3
188
Q9ZM51.1
2e-12
A7H8E6.1
0.014
Видно, что PSI-BLAST смог найти семейство за 3 итерации (согласно таблице, E-values худшей из правильных и лучшей из неправильных отличаются на 9 порядков по итогу третьей итерации).
Из базы данных Pfam я скачал выборку последовательностей с исследуемым доменом для поиска мотивов с помощью MEME. С выдачей можно ознакомиться
по ссылке.
Для вычисления частоты представленности сайта GATC в геноме бактерии Acinetobacter populi я использовал команду: cbcalc -s sitesh.txt Bac_genome.fna -o out.tsv. Ниже можно видеть гистограмму. По ней видно, что сайт GATC представлен приблизительно так же, как и ожидалось (O/E = 0.958).
Рис. 2.
Гистограмма констрастов O/E всех 24 сайтов (без повторений) для Acinetobacter populi.