Назад на страницу семестра
Для исследования был выбран тот же штамм Bradyrhizobium diazoefficiens, что и в прошлом практикуме. Геном бактерии содержит по 1-му гену рестриктазы I и II типа (ссылка на запись в REBASE); рестриктаза II типа обладает также матилтрансферазной активностью. Узнаваемый сайт известен лишь для одной из метилтрансфераз - GANTC.
Последовательность хромосомы (sequence.fasta) была скачана из NCBI. Из предложенной в задании таблицы с рестриктазами был составлен список sites.txt сайтов узнавания не-"putative" рестриктаз, длиной не менее 3-х нуклеотидов. Данные о представленности этих сайтов были получены командой:
cbcalc -s sites.txt -o cbcalc.tsv --burge pr8_sequence.fasta
Выдача CBcalc, отсортированная по возрастанию отношения observed/expected, доступна по ссылке. Самые недопредставленные сайты, вплоть до GANTC, перечислены в Таблице 1.
Сайт | Отношение О/Е |
---|---|
CTAG | 0.35 |
CTGCAG | 0.726 |
CTRYAG | 0.77 |
CAGCTG | 0.773 |
ATGCAT | 0.796 |
GTAC | 0.825 |
CTNAG | 0.826 |
GANTC | 0.828 |
Из предложенной в задании таблицы с рестриктазами была получена информация о не-"putative" рестриктазах, узнающих данные сайты. Она доступна по ссылке. Пожалуй, наиболее перспективными для поиска гомологов являются рестриктазы, узнающие сильно недопредставленный сайт CTAG.
Для построения семейства был выбран белок Escherichia coli, определяющий место септы при делении MinC (AC P18196)
При поиске гомологов с порогом E-value<0.005 после 7-ми итераций не наблюдалось стабилизации выдачи или увеличения "ступеньки" E-value; поэтому поиск проводился с порогом E-value<0.0005. Описание итераций PSI-BLAST представлено в таблице 2. Выдача 4-й итерации доступна по ссылке.
На первой итерации выдача полностью состояла из MinC из других бактерий, поэтому, для ускорения стабилизации и получения более соответствующих действительности результатов, белки, не преодолевшие порог, также были взяты для второй итерации.
Номер итерации | Число находок выше порога | AC худшей находки выше порога | E-value этой находки | AC лучшей находки выше порога | E-value этой находки | Разница |
---|---|---|---|---|---|---|
1 | 149 | A0PZG9 | 5e-04 | A5IND6 | 5e-04 | 0.0 |
2 | 188 | B5ZAG0 | 9e-10 | P39450 | 6e-04 | 6e-04 |
3 | 188 | O25693 | 5e-09 | P39450 | 0.004 | 0.006 |
4 | 188 | B5ZAG0 | 4e-09 | P39450 | 0.005 | 0.005 |
Список находок не изменялся после второй итерации. Возможно, это говорит о слишком строгом пороге на E-value, позволяющем отобрать лишь MinC из разных видов бактерий (среди находок, не преодолевших порог, MinC или белки с идентичной функцией отсутствуют). С другой стороны, можно быть уверенным в отсутствии ложноположительного включения белка в построенное семейство.