В БД Pfam для выполнения задания был выбран домен OGG_N (PF07934) Н-концевой домен белка 8-оксогуанин гликозилазы. В выравнивании seed содержится 54 последовательности.Скачав и открыв выравнивание в jalview, я убрала похожие друг на друга на 98% последовательности, после чего их осталось 52.
С помощью постепенного уменьшения порога индентичности во время окрашивания выравниваний, был найден следующий паттерн: G.R.L.Q…E.L
Нашлось 29 последовательностей из 52 с этой подпоследовательностью. Результатом поиска этого паттерна с помощью сервиса “My hits” стали 28 находок.
pfam entry |
количество белков |
---|---|
PF00730, PF07934 | 5 |
PF15801, PF00557 | 4 |
PF09281, PF00476, PF01367, PF02739 | 3 |
PF00536,PF02604,PF00640,PF12796,PF07647 | 2 |
PF06292, PF01926, PF01018, PF02874, PF00285, PF13507, PF00155, PF00168, PF02132, PF01867, PF13857, PF07676, PF00118, PF03775, PF13662, PF15035, PF00006, PF09453, PF00400, PF07569 | 1 |
PF00730, PF07934 - “правильные домены” (HhH-GPD и OGG_N) соответственно. Но количество правильных находок ограничивается поиском по базе swiss-prot , в то время как 29 последовательностей из выравнивания клады для которой специфичен этот паттерн - не из swiss-prot.
Чтобы получить выравнивания клады с характерным для нее паттерном, было построено дерево с помощью алгоритма UPGMA. Затем с помощью возможностей jalview была отделена клада - во всех ее последовательностях присутствует рассматриваемый паттерн, в то время как в оставшихся последовательностях паттерн отсутствует.
Для выполнения задания был выбран белок Вероятный сайт-определяющий белок MinC (Q7VDL2
) из организма Prochlorococcus marinus.
№ итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 19 | Q5PNN8.1 | 0.038 | Q7VDL2.1 | 4,00E-159 |
2 | 0 | - | - | Q7VDL2.1 | 6,00E-93 |
3 | 1 | A7H8E6.1 | 0.014 | B5R2V6.1 | 3,00E-72 |
4 | 1 | A7H8E6.1 | 0.013 | A4JCA7.1 | 6,00E-75 |
5 | 2 | Q0AFJ3.1 | 0.049 | A4TJI1.1 | 4,00E-81 |
6 | 1 | A7H8E6.1 | 0.014 | A9MVV3.1 | 1,00E-82 |
7 | 1 | A7H8E6.1 | 0.015 | A4TJI1.1 | 4e-83 |
8 | 1 | A7H8E6.1 | 0.014 | A4TJI1.1 | 2,00E-82 |
Качество результата также определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков. Как видно из таблицы итераций - разница в е-валью между сверпороговыми и допороговыми находками значительна. А значит, можно говорить о гомологичности найденных белков, однако процент схожести запроса и находки в большинстве случаев не больше 20%.
Геном Pseudomonas alkylphenoliсa состоит из одной хромосомы - Neo, которая содержит в себе 1 молекулу днк ее длина 5 612 010. Среднее GC содержание - 0.6118. Количество слов было подсчитано с помощью EMBOSS Wordcount с параметром длины слова = 2 и 1.
Ожидаемое число “TA”: (длина хромосомы = 5612010 ) x (частота A в хромосоме = 1132086 / 5612010) x (частота T в хромосоме = 1137652/5612010) =229493.515171
Реальное число “слов”: TA 123201.