Сигналы и мотивы 3.

Консервативный мотив в выравнивании последовательностей гомологичных белков.

Для выполнения задания было выбрано семейство аспартатпротеаз эукариот ASP (PF00026). С сайта Pfam было скачено выравнивание seed, содержащее 24 последовательности и затем загружено в программу JalView. При пороге Indetity threshold 100% был найден высококонсеравтивный мотив, паттерн данного мотива - DTGS...W[VI]. Был произведен поиск по данному паттерну в выравнивании, что дало 24 находки, т.е. можно говорить о высоком IC данного мотива. Далее с помощью веб-сервиса по данному паттерну был осуществлен поиск в базе данных SwissProt на сайте MyHits. С результатом выдачи можно ознакомиться по ссылке, было найдено 147 белковых последовательностей. На странице Pfam данного семейства утверждается, что в него входят пепсины, катепсины и ренины. По набору ключевых слов был произведен поиск с помощью скрипта. Было выявлено, что в 119 из 147 находок содержат в названии renin, pepsin, или cathelin. Из 58 оставшихся находок 39 содержат слова Aspartic или Aspartyl в названии белка, то есть являются аспартатпротеазами. Поиск доменов остальных 19-ти белков я провел в ручную в pfam по их id и оказалось, что все эти белки относятся к ASP. В итоге можно сделать вывод, что все 147 находок являются 'правильными'.

Мотив, специфичный для одной клады филогенетического дерева.

В JalView было построено филогенетическое дерево последовательностей из выравнивания seed с помощью метода NJ. Далее была выбрана клада и найден мотив (рисунок 2). Был составлен паттерн данного мотива:

Y[DPS]N[LFV]P.[KIT]LK[DSK][QE][KG].I..[AVN]AYS[LC].LNS

Далее был произведен поиск по данному паттерну в выравнивании seed. В итоге данный мотив был найден только в 6 последовательностях клады.

Кекс
Рисунок 2. Представители и мотив клады.

PSI-BLAST

    Для выполнения данного задания был выбран белок с индефикатором B2V8C0. Данный белок принадлежит экстремофильной бактерии Sulfurihydrogenibium sp. (strain YO3AOP1). Предполагается, что данный белок является белоком-локализатором перегородки MinC. MinC входит в систему Min бактериальных клеток. Данная система предотвращают размещение кольца FtsZ бактерий перед делением где угодно, кроме середины клетки, и, как предполагается, участвует в пространственном регуляторном механизме, который связывает увеличение размера перед делением клетки с полимеризацией FtsZ в середине клетки.

    Выбранный белок был использован для запуска PSI-BLAST с параметрами e-value = 0.005 и поиск по банку Swiss-Prot. Результаты запусков итераций приведены в таблице 1. Результат удалось стабилизировать со второй итерации. Как видно из таблицы, количество находок и идентификаторы лучшей и худшей находок с 2 по 4 итерацию совпадают. При это высокая разница между e-value худшей "правильной" и "лучшей" неправильной находками скорее всего говорит нам о том что находки составляют семейство гомологичных белков.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 163 Q88M41.2 0.004 Q4US07.1 0.006
2 188 Q9ZM51.1 6,00E-07 A7H8E6.1 0.037
3 188 Q9ZM51.1 2,00E-11 A7H8E6.1 0.025
4 188 Q9ZM51.1 1,00E-12 A7H8E6.1 0.014
Таблица 1. Результаты итераций PSI-BLAST

Частота TA в геноме бактерии .

Для выполнения этого задания был использован геном штама Bacillus subtilis штамма 168. С помощью скрипта было определено, что в геноме Bacillus subtilis 218025 сайтов TA, а длина всего генома - 4215606 нуклеотидов. Также были определены частоты для каждого нуклеотида. Для получения вероятности появления данного сайта в геноме, частоты нуклеотидов входящих в TA были перемножены между собой - 0.079765. Помножив вероятность на длину генома, получим математическое ожидание количества сайтов равное 336258.62, что почти в 1.542 больше реального количества сайтов в последовательности. Для оценки достоверности данного отличия, был проведен обычный односторонний Z-test. Можно считать что количество данных сайтов в геноме имеет биномиальное распределение. В виду большой длины генома можно считать что случайная величина (количество сайтов в геноме) имеет нормальное распределение (по центральной предельной теореме) с математическим ожиданием равным 336258.62 и среднеквадратичным отклонением равным 556.27. Примем за нулевую гипотезу то что среднее количество данных сайтов в геноме равно математическому ожиданию, а за альтернативную гипотезу, то что среднее меньше математического ожидания. Z-test показал что p-value можно сказать равно нулю. При таком маленьком значении мы можем отвергнуть нулевую гипотезу и принять альтернативную при любом адекватном уровне значимости. Это говорит нам о том, что отличие достоверно

Список литературы

  1. Min System