Отчет за практикум 8

1. Консервативный мотив в выравнивании последовательностей гомологичных белков

Для выполнения заданий я выбрала центральный домен поли(А) полимераз - PAP_central(PF04928). Его выравнивание seed содержит 96 последоваельностей. В выравнивании было много консервативных учатков, я остановилась на мотиве с паттерном H.MP[IV]ITPA[YF]P. Он присутствует в 70/96 последовательностях. Затем с помощью сервиса MyHits я выполнила поиск этого паттерна в базе данных SwissProt и получила 18 находок (файл с находками), каждая из которых - поли(А) полимераза. Можно сделать вывод, что мотив H.MP[IV]ITPA[YF]P действительно характерен для данного домена.

2. Мотив, специфичный для одной клады филогенетического дерева

В Jalview я построила филогенетическое дерево для моего домена с помощью алгоритма NJ. Затем я выбрала кладу, покрашенную в красный на Рис. 1. Для всех 17 последовательностей этой клады оказался характерен следующий мотив: HRMP[VI]ITP[VA]YP.MC[AS]THN
Причем ни в одной последовательности других клад он не встречается.

Рис. 1 Филогенетическое дерево PAP_central(PF04928)

3. Составление семейства гомологов с помощью PSI-BLAST

Я выбрала белок с AC идентификатором Q7VDL2 - это ингибитор клеточного деления бактерии Prochlorococcus marinus.

Таблица 1. Итераций PSI-BLAST
Номер итерацииЧисло находок выше порога (0,005)Идентификатор худшей находки выше порогаE-value находкиИдентификатор лучшей находки ниже порогаE-value находки
1146Q9AG20.10,005Q7N522.10.004
2188B6JKX0.17e-08--
3188Q9ZM51.12e-12--

Из Таблицы 1 видно, что уже после второй итерации количество находок перестало меняться, а E-value худшей находки было меньше порога 0,005. Это говорит о том, что данное семейство выделено вполне обосновано.

4. Проверка гипотезы о том, что число TA в геноме меньше ожидаемого по статистике

Для выполнения этого задания я выбрала бактерию Clostridium botulinum A str. ATCC 3502. Локус - NC_009495, его длина 3886916 нуклеотидов. Ожидаемое число "TA" - 500264, а наблюдаемое - 494707. P-value для такого различия равен 3,94352E-15. Это означает, что различие между ожидаемым и наблюдаемым количеством "TA" все таки есть.