На сайте REBASE была выбрана бактерия, у которой есть система рестрикции-модификации второго типа с известными сайтами рестрикции, Microcystis aeruginosa NIES-843. Она отнсоится к цианобактериям.
Выбор основывался на большом количестве генов (в т.ч. генов, на которых происходит рестрикция). На этом же сайте (в поле "Gene" должна стоять буква "R") обозначены паттерны сайтов узнавания (см. табл. 1), которые есть и в tsv-таблице.
Паттерн | Ферменты |
---|---|
TGCGCA | Mae843ORF750BP, Mae843ORF750AP |
RCATGY | Mae843ORF4470P |
GAATTC | Mae843ORF8670P |
CMGCKG | Mae843ORF14980P |
GATC | Mae843ORF18940P |
GGWCC | Mae843ORF28780P |
ACRYGT | Mae843ORF30120P |
GCTAGC | Mae843ORF34630AP, Mae843ORF34630BP, Mae843ORF34630CP |
GATATC | Mae843ORF51360P |
CYCGRG | Mae843ORF52720P |
ATGCAT | Mae843ORF58710P |
TTCGAA | Mae843ORF60330AP, Mae843ORF60330BP |
Скачав геном нашей бактерии, изучим представленность и недопредставленность сайтов рестрикции.
cbcalc -s TypeII_REs.tsv -o cbcalc_RM.tsv genome.fasta --burge
cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> endonucl_no.txt
Из списка AC выбрали следующий идентификатор: P39450. Этот белок - S-(гидроксиметил)глутатион дегидрогеназа, или алкогольдегидрогеназа класса III (EC:1.1.1.284), который относится к классу оксидоредуктаз. Нашли у Photobacterium damsela subsp. piscicida. Фермент участвует в катализе реакции: НАДФ+ + S-(гидроксиметил)глутатион = H+ + НАДФH + S-формилглутатион.
Далее запускаем Psi-Blast на NCBI: заходим в белковый Blast, выбираем Psi-Blast (Position-Specific Iterated BLAST), поиск по банку swiss-prot, выставляем параметры по умолчанию. После каждой итерации заполняем таблицу. Для стабилизации количества находок и разницы E-value между худшей "правильной" находкой и "лучшей" неправильной проводим пять итераций, получаем табл.2.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 369 | P0CH36.1 | 0.003 | P0A4X1.1 | 0.006 |
2 | 500 | Q86ZD9.1 | 2e-17 | нет находок | - |
3 | 500 | A0A3G1DJH7.1 | 3e-34 | нет находок | - |
4 | 500 | Q8N4Q0.1 | 2e-37 | нет находок | - |
5 | 500 | Q8J0F5.1 | 3e-39 | нет находок | - |
Видно, что после второй итерации количество находок стаблилизировалось, а E-value с каждым разом становится всё меньше. Следовательно, данное семейство белков высококонсервативно, как и следовало ожидать, судя по данным из Википедии.