Учебный Сайт Николая Николаева

Назад на страницу семестра

Сигналы и мотивы-3.

1. Проверка недопредставленности сайтов рестрикции в геноме Bradyrhizobium diazoefficiens.

Для исследования был выбран тот же штамм Bradyrhizobium diazoefficiens, что и в прошлом практикуме. Геном бактерии содержит по 1-му гену рестриктазы I и II типа (ссылка на запись в REBASE); рестриктаза II типа обладает также матилтрансферазной активностью. Узнаваемый сайт известен лишь для одной из метилтрансфераз - GANTC.

Последовательность хромосомы (sequence.fasta) была скачана из NCBI. Из предложенной в задании таблицы с рестриктазами был составлен список sites.txt сайтов узнавания не-"putative" рестриктаз, длиной не менее 3-х нуклеотидов. Данные о представленности этих сайтов были получены командой:

cbcalc -s sites.txt -o cbcalc.tsv --burge pr8_sequence.fasta

Выдача CBcalc, отсортированная по возрастанию отношения observed/expected, доступна по ссылке. Самые недопредставленные сайты, вплоть до GANTC, перечислены в Таблице 1.

Таблица 1.Самые недопредставленные сайты рестрикции в геноме Bradyrhizobium diazoefficiens.
СайтОтношение О/Е
CTAG0.35
CTGCAG0.726
CTRYAG0.77
CAGCTG0.773
ATGCAT0.796
GTAC0.825
CTNAG0.826
GANTC0.828

Из предложенной в задании таблицы с рестриктазами была получена информация о не-"putative" рестриктазах, узнающих данные сайты. Она доступна по ссылке. Пожалуй, наиболее перспективными для поиска гомологов являются рестриктазы, узнающие сильно недопредставленный сайт CTAG.

2. PSI-BLAST.

Для построения семейства был выбран белок Escherichia coli, определяющий место септы при делении MinC (AC P18196)

При поиске гомологов с порогом E-value<0.005 после 7-ми итераций не наблюдалось стабилизации выдачи или увеличения "ступеньки" E-value; поэтому поиск проводился с порогом E-value<0.0005. Описание итераций PSI-BLAST представлено в таблице 2. Выдача 4-й итерации доступна по ссылке.

На первой итерации выдача полностью состояла из MinC из других бактерий, поэтому, для ускорения стабилизации и получения более соответствующих действительности результатов, белки, не преодолевшие порог, также были взяты для второй итерации.

Таблица 2.Описание итераций PSI-BLAST.
Номер итерацииЧисло находок выше порогаAC худшей находки выше порогаE-value этой находкиAC лучшей находки выше порогаE-value этой находкиРазница
1149A0PZG95e-04A5IND65e-040.0
2188B5ZAG09e-10P394506e-046e-04
3188O256935e-09P394500.0040.006
4188B5ZAG04e-09P394500.0050.005

Список находок не изменялся после второй итерации. Возможно, это говорит о слишком строгом пороге на E-value, позволяющем отобрать лишь MinC из разных видов бактерий (среди находок, не преодолевших порог, MinC или белки с идентичной функцией отсутствуют). С другой стороны, можно быть уверенным в отсутствии ложноположительного включения белка в построенное семейство.