Для выполнения заданий я выбрала центральный домен поли(А) полимераз - PAP_central(PF04928). Его выравнивание seed содержит 96 последоваельностей. В выравнивании было много консервативных учатков, я остановилась на мотиве с паттерном H.MP[IV]ITPA[YF]P. Он присутствует в 70/96 последовательностях. Затем с помощью сервиса MyHits я выполнила поиск этого паттерна в базе данных SwissProt и получила 18 находок (файл с находками), каждая из которых - поли(А) полимераза. Можно сделать вывод, что мотив H.MP[IV]ITPA[YF]P действительно характерен для данного домена.
В Jalview я построила филогенетическое дерево для моего домена с помощью алгоритма NJ. Затем я выбрала кладу, покрашенную в красный на Рис. 1.
Для всех 17 последовательностей этой клады оказался характерен следующий мотив: HRMP[VI]ITP[VA]YP.MC[AS]THN
Причем ни в одной последовательности других клад он не встречается.
Я выбрала белок с AC идентификатором Q7VDL2 - это ингибитор клеточного деления бактерии Prochlorococcus marinus.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value находки | Идентификатор лучшей находки ниже порога | E-value находки |
1 | 146 | Q9AG20.1 | 0,005 | Q7N522.1 | 0.004 |
2 | 188 | B6JKX0.1 | 7e-08 | - | - |
3 | 188 | Q9ZM51.1 | 2e-12 | - | - |
Из Таблицы 1 видно, что уже после второй итерации количество находок перестало меняться, а E-value худшей находки было меньше порога 0,005. Это говорит о том, что данное семейство выделено вполне обосновано.
Для выполнения этого задания я выбрала бактерию Clostridium botulinum A str. ATCC 3502. Локус - NC_009495, его длина 3886916 нуклеотидов. Ожидаемое число "TA" - 500264, а наблюдаемое - 494707. P-value для такого различия равен 3,94352E-15. Это означает, что различие между ожидаемым и наблюдаемым количеством "TA" все таки есть.