В рамках данного практикума было взято семейство эндонуклеаз HNH_5 (PF14279). seed для этого семейства содержит 31 последовательность. Далее выравнивание было открыто в JalView. В качестве консервативного мотива был выбран мотив [ED]H[LIVM][ILVF][PL]...GG , который был найден в 23 последовательностях из 31. С помощью сервиса MyHints производился поиск мотивов по базе данных SwissProt.
В результате получено 57 находок, большинство из которых даже не являются эндонуклеазами
В JalView было построено филогенетическое дерево с помощью NJ. Была выделена клада из 7 последовательностей. Был выделен еще более длинный мотив [ILV]DHIIP[LI]A.GG[SQ]ND[IM]SNL, встречащийся во всех последовательностях клады (рис 2), при этом при поиске по всем последовательностям больше не было найдено последовательностей с данным мотивом.
Для выполнения данного задания был выбран белок Q67XL4 - хлоропластный содержащий домен CRM белок At3g25440 из организма Arabidopsis thaliana . Функция этого белка неизвестна, однако понятно, что он содержит РНК-связывающий CRM домен.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 18 | Q9FFU1.1 | 0.004 | Q9SL79.2 | 0.012 |
2 | 23 | P54454.1 | 2e-04 | - | - |
3 | 25 | Q58068.1 | 2e-06 | - | - |
4 | 25 | Q58068.1 | 7e-17 | Q898C7.1 | 0.007 |
Выдача PSI-BLAST стабилизировалась на 4 итерации, что говорит о высоком сходстве белков выбранного семейства. Все белки из выдачи являются РНК-связывающими, что говорит о высокой консервативности этого свойства внутри семейства.
В этом задании я использволала геном штама E. coli O157:H7 str. Sakai. Для подсчета количества TA в геноме был использован скрипт. В итоге ожидаемое число TA сайтов оказалось равным 336006 с учетом GC-состава, а наблюдаемое число - 254399. Для оценки значимости выявленного различия был использован обычный Z-тест. Нулевая гипотеза в данном случае заключается в том, что среднее число встреч TA равно 336006.
Случайная величина X, равная количеству сайтов в геноме, имеет биномиальное распределение, причем из-за достаточно большой длины генома ее можно аппроксимировать нормальным распределением (по Центральной предельной теореме).
X ≈ N(np, √(npq))
P-value = P(X ≤ 254399) = P(Z ≤ (254399 - 336006)/579,66) =
= P(Z ≤ -140,78) = 0
Следовательно, различие статистически значимо.