Практикум 8.

Задание 1.

В БД Pfam для выполнения задания был выбран домен OGG_N (PF07934) Н-концевой домен белка 8-оксогуанин гликозилазы. В выравнивании seed содержится 54 последовательности.Скачав и открыв выравнивание в jalview, я убрала похожие друг на друга на 98% последовательности, после чего их осталось 52.

С помощью постепенного уменьшения порога индентичности во время окрашивания выравниваний, был найден следующий паттерн: G.R.L.Q…E.L

Нашлось 29 последовательностей из 52 с этой подпоследовательностью. Результатом поиска этого паттерна с помощью сервиса “My hits” стали 28 находок.

   
pfam entry
количество белков
PF00730, PF07934 5
PF15801, PF00557 4
PF09281, PF00476, PF01367, PF02739 3
PF00536,PF02604,PF00640,PF12796,PF07647 2
PF06292, PF01926, PF01018, PF02874, PF00285, PF13507, PF00155,   PF00168, PF02132, PF01867, PF13857, PF07676, PF00118, PF03775, PF13662,   PF15035, PF00006, PF09453, PF00400, PF07569 1   
Таб. 1. Перечень pfam entry доменов, к которым относятся находки.

PF00730, PF07934 - “правильные домены” (HhH-GPD и OGG_N) соответственно. Но количество правильных находок ограничивается поиском по базе swiss-prot , в то время как 29 последовательностей из выравнивания клады для которой специфичен этот паттерн - не из swiss-prot.

Задание 2.

Чтобы получить выравнивания клады с характерным для нее паттерном, было построено дерево с помощью алгоритма UPGMA. Затем с помощью возможностей jalview была отделена клада - во всех ее последовательностях присутствует рассматриваемый паттерн, в то время как в оставшихся последовательностях паттерн отсутствует.

Рис. 1. Выделенная клада.

Задание 3.

Для выполнения задания был выбран белок Вероятный сайт-определяющий белок MinC (Q7VDL2) из организма Prochlorococcus marinus.

№ итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 19 Q5PNN8.1 0.038 Q7VDL2.1 4,00E-159
2 0 - - Q7VDL2.1 6,00E-93
3 1 A7H8E6.1 0.014 B5R2V6.1 3,00E-72
4 1 A7H8E6.1 0.013 A4JCA7.1 6,00E-75
5 2 Q0AFJ3.1 0.049 A4TJI1.1 4,00E-81
6 1 A7H8E6.1 0.014 A9MVV3.1 1,00E-82
7 1 A7H8E6.1 0.015 A4TJI1.1 4e-83
8 1 A7H8E6.1 0.014 A4TJI1.1 2,00E-82
Таб. 2. Таблица итераций PSI-BLAST..

Качество результата также определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков. Как видно из таблицы итераций - разница в е-валью между сверпороговыми и допороговыми находками значительна. А значит, можно говорить о гомологичности найденных белков, однако процент схожести запроса и находки в большинстве случаев не больше 20%.

Задание 4.

Геном Pseudomonas alkylphenoliсa состоит из одной хромосомы - Neo, которая содержит в себе 1 молекулу днк ее длина 5 612 010. Среднее GC содержание - 0.6118. Количество слов было подсчитано с помощью EMBOSS Wordcount с параметром длины слова = 2 и 1.

Ожидаемое число “TA”: (длина хромосомы = 5612010 ) x (частота A в хромосоме = 1132086 / 5612010) x (частота T в хромосоме = 1137652/5612010) =229493.515171

Реальное число “слов”: TA 123201.