Для выполнения задания было выбрано семейство аспартатпротеаз эукариот ASP (PF00026). С сайта Pfam было скачено выравнивание seed, содержащее 24 последовательности и затем загружено в программу JalView. При пороге Indetity threshold 100% был найден высококонсеравтивный мотив, паттерн данного мотива - DTGS...W[VI]. Был произведен поиск по данному паттерну в выравнивании, что дало 24 находки, т.е. можно говорить о высоком IC данного мотива. Далее с помощью веб-сервиса по данному паттерну был осуществлен поиск в базе данных SwissProt на сайте MyHits. С результатом выдачи можно ознакомиться по ссылке, было найдено 147 белковых последовательностей. На странице Pfam данного семейства утверждается, что в него входят пепсины, катепсины и ренины. По набору ключевых слов был произведен поиск с помощью скрипта. Было выявлено, что в 119 из 147 находок содержат в названии renin, pepsin, или cathelin. Из 58 оставшихся находок 39 содержат слова Aspartic или Aspartyl в названии белка, то есть являются аспартатпротеазами. Поиск доменов остальных 19-ти белков я провел в ручную в pfam по их id и оказалось, что все эти белки относятся к ASP. В итоге можно сделать вывод, что все 147 находок являются 'правильными'.
Для выполнения данного задания был выбран белок с индефикатором B2V8C0. Данный белок принадлежит экстремофильной бактерии Sulfurihydrogenibium sp. (strain YO3AOP1). Предполагается, что данный белок является белоком-локализатором перегородки MinC. MinC входит в систему Min бактериальных клеток. Данная система предотвращают размещение кольца FtsZ бактерий перед делением где угодно, кроме середины клетки, и, как предполагается, участвует в пространственном регуляторном механизме, который связывает увеличение размера перед делением клетки с полимеризацией FtsZ в середине клетки.
Выбранный белок был использован для запуска PSI-BLAST с параметрами e-value = 0.005 и поиск по банку Swiss-Prot. Результаты запусков итераций приведены в таблице 1. Результат удалось стабилизировать со второй итерации. Как видно из таблицы, количество находок и идентификаторы лучшей и худшей находок с 2 по 4 итерацию совпадают. При это высокая разница между e-value худшей "правильной" и "лучшей" неправильной находками скорее всего говорит нам о том что находки составляют семейство гомологичных белков.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 163 | Q88M41.2 | 0.004 | Q4US07.1 | 0.006 |
2 | 188 | Q9ZM51.1 | 6,00E-07 | A7H8E6.1 | 0.037 |
3 | 188 | Q9ZM51.1 | 2,00E-11 | A7H8E6.1 | 0.025 |
4 | 188 | Q9ZM51.1 | 1,00E-12 | A7H8E6.1 | 0.014 |
Для выполнения этого задания был использован геном штама Bacillus subtilis штамма 168. С помощью скрипта было определено, что в геноме Bacillus subtilis 218025 сайтов TA, а длина всего генома - 4215606 нуклеотидов. Также были определены частоты для каждого нуклеотида. Для получения вероятности появления данного сайта в геноме, частоты нуклеотидов входящих в TA были перемножены между собой - 0.079765. Помножив вероятность на длину генома, получим математическое ожидание количества сайтов равное 336258.62, что почти в 1.542 больше реального количества сайтов в последовательности. Для оценки достоверности данного отличия, был проведен обычный односторонний Z-test. Можно считать что количество данных сайтов в геноме имеет биномиальное распределение. В виду большой длины генома можно считать что случайная величина (количество сайтов в геноме) имеет нормальное распределение (по центральной предельной теореме) с математическим ожиданием равным 336258.62 и среднеквадратичным отклонением равным 556.27. Примем за нулевую гипотезу то что среднее количество данных сайтов в геноме равно математическому ожиданию, а за альтернативную гипотезу, то что среднее меньше математического ожидания. Z-test показал что p-value можно сказать равно нулю. При таком маленьком значении мы можем отвергнуть нулевую гипотезу и принять альтернативную при любом адекватном уровне значимости. Это говорит нам о том, что отличие достоверно