Сигналы и мотивы - 3

Консервативный мотив в выравнивании последовательностей гомологичных белков

В рамках данного практикума было взято семейство эндонуклеаз HNH_5 (PF14279). seed для этого семейства содержит 31 последовательность. Далее выравнивание было открыто в JalView. В качестве консервативного мотива был выбран мотив [ED]H[LIVM][ILVF][PL]...GG , который был найден в 23 последовательностях из 31. С помощью сервиса MyHints производился поиск мотивов по базе данных SwissProt.

В результате получено 57 находок, большинство из которых даже не являются эндонуклеазами

Рис.1. Выравнивание последовательностей из выбранного семейства

Мотив, специфичный для одной клады филогенетического дерева

В JalView было построено филогенетическое дерево с помощью NJ. Была выделена клада из 7 последовательностей. Был выделен еще более длинный мотив [ILV]DHIIP[LI]A.GG[SQ]ND[IM]SNL, встречащийся во всех последовательностях клады (рис 2), при этом при поиске по всем последовательностям больше не было найдено последовательностей с данным мотивом.

Рис.2. Распределение мотива по кладам

PSI-BLAST

Для выполнения данного задания был выбран белок Q67XL4 - хлоропластный содержащий домен CRM белок At3g25440 из организма Arabidopsis thaliana . Функция этого белка неизвестна, однако понятно, что он содержит РНК-связывающий CRM домен.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 18 Q9FFU1.1 0.004 Q9SL79.2 0.012
2 23 P54454.1 2e-04 - -
3 25 Q58068.1 2e-06 - -
4 25 Q58068.1 7e-17 Q898C7.1 0.007

Выдача PSI-BLAST стабилизировалась на 4 итерации, что говорит о высоком сходстве белков выбранного семейства. Все белки из выдачи являются РНК-связывающими, что говорит о высокой консервативности этого свойства внутри семейства.

Проверка гипотезы о том, что число TA в геноме меньше ожидаемого по статистике

В этом задании я использволала геном штама E. coli O157:H7 str. Sakai. Для подсчета количества TA в геноме был использован скрипт. В итоге ожидаемое число TA сайтов оказалось равным 336006 с учетом GC-состава, а наблюдаемое число - 254399. Для оценки значимости выявленного различия был использован обычный Z-тест. Нулевая гипотеза в данном случае заключается в том, что среднее число встреч TA равно 336006.

Случайная величина X, равная количеству сайтов в геноме, имеет биномиальное распределение, причем из-за достаточно большой длины генома ее можно аппроксимировать нормальным распределением (по Центральной предельной теореме).

X ≈ N(np, √(npq))

P-value = P(X ≤ 254399) = P(Z ≤ (254399 - 336006)/579,66) =
= P(Z ≤ -140,78) = 0

Следовательно, различие статистически значимо.