Практикум 10

Для выполнения заданий я выбрал домен PF00067 (цитохромы P450). В выравнивании содержится 50 последовательностей. Вот ссылка для скачивания . Я удалил идентичные и очень похожие последовательности и окрасил с помощью clustal по консервативности, выставив порог 95%. Удалось обнаружить консервативный мотив (496-509). Jalview-паттерн мотива: F[SG].G.R.C.G.{3}A. Я провёл поиск по данному паттерну в выравнивании. В итоге нашлось 43 находки из 50. Паттерн в формате Prosite выглядит так: F-[SG]-x-G-x-R-x-C-x-G-x(3)-A. При поиске по данному паттерну в базе SwissProt удалось найти 884 последовательности. В ряду данных находок большинство так или иначе связано с цитохромами P450 (много монооксигеназ, гидроксилаз, лиаз, ароматаз среди найденных белков).

Далее я с помощью метода NJ построил дерево в Jalview по данному выравниванию. Выбрал одну кладу, для которой выделяется ещё один консервативный домен, следующий за найденным ранее (510-524, изображение можно скачать по ссылке. Паттерн мотива: M[EQ].FL.{2}[TC].[IL]LQ.F. Он встречается только в данных последовательностях (12 штук).

Для выполнения следующего задания был выбран белок с AC: Q7VDL2 - это белок цианобактерии Prochlorococcus marinus, служащий ингибитором клеточного деления, предотвращающим полимеризацию белка FtsZ. С помощью PSI-BLAST был осуществлён поиск семейства гомологов. Результаты приведены ниже:

Таблица 1. Итерации PSI-BLAST
№ итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 7e-08 - -
3 188 Q9ZM51.1 2e-12 A7H8E6.1 0.014

Видно, что PSI-BLAST смог найти семейство за 3 итерации (согласно таблице, E-values худшей из правильных и лучшей из неправильных отличаются на 9 порядков по итогу третьей итерации).

Из базы данных Pfam я скачал выборку последовательностей с исследуемым доменом для поиска мотивов с помощью MEME. С выдачей можно ознакомиться по ссылке.

Для вычисления частоты представленности сайта GATC в геноме бактерии Acinetobacter populi я использовал команду: cbcalc -s sitesh.txt Bac_genome.fna -o out.tsv. Ниже можно видеть гистограмму. По ней видно, что сайт GATC представлен приблизительно так же, как и ожидалось (O/E = 0.958). Рис. 2. Гистограмма констрастов O/E всех 24 сайтов (без повторений) для Acinetobacter populi.