|
Предсказание ресткриктаз в геноме по недопредставленным сайтам
рестрикции
Системы рестрикции-модификации типа II хараткетрны как для бактерий,
так и для неэукариотических архей, представлены наборами комплементарных
эндонуклеаз рестрикции и метилтрансфераз, распознающими одинаковые сайты
рестрикции. После репликации генома метилазы метилируют нуклеобазы узнаваемого
сайта рестрикции, если одна из цепей ДНК этого сайта уже метилирована,
предотвращая таким образом появление вследствие следующей репликации молекулы
ДНК с полностью неметилированным сайтом рестрикции, который уже являлся бы
мишенью для рестриктазы. Такой механизм позволяет гидролизовать
чужеродные молеклы ДНК (полностью неметилированные), отличая их от наследуемых
вертикально участков ДНК (всегда метилированных хотя бы по одной цепи), и
требует для содержания активного гена рестриктазы наличие активного гена
метилазы, действующей на тот же сайт рестрикции.
У систем типа II метилазы обычно работают независимо от рестриктаз, хотя
встречаются случаи слияния двух белков.
Вследствие ошибок метилирования или недостаточной силы этого сигнала для
рестриктаз, иногда может происходить и гидролиз собственной ДНК, убивающий
клетку. Поэтому в геномах, содержащих гены систем рестрикции-модификации,
идёт слабый негативный отбор на последовательности соответствующих сайтов
рестрикции. По недопредставленности таких последовательностей в геноме можно
судить о наличии специфичеких представителей систем рестрикции-модификации
или о давности приобретения этих систем (при относительно недавнем HGT
недопредставленность не успевает возникнуть).
Для поиска RM систем из базы REBASE был выбран полный геном бактерии
Dehalococcoides mccartyi BTF08 (RefSeq AC NZ_CP006950) из отдела
Chloroflexi.
По данным
REBASE геном содержит 4 рестриктазы, включая одну никазу, и 6 метилаз
(1 рестриктаза и 1 метилаза слиты), относящихся к RM systems type II. Также
для генома указано 3 сайта рестрикции,
узнаваемых некоторыми из этих ферментов.
Все используемые здесь файлы хранятся в директории
~stepan_puhov/term4/block2/pr8
Определение представленности в геноме сайтов рестрикции из REBASE
Для 3 последовательностей сайтов рестрикции,
представленных в REBASE для выбранного генома, была оценена
представленность в геноме в форме compositional bias
(CB = Fobserved/Fexpected), подсчитанным
по алгоритму Карлина–Бёрджа программой cbcalc:
Команда запуска программы:
cbcalc -K -s rebase_sites.txt dehalococcoides_mccartyi.fasta | sort -k5,5g
Результат:
Sequence ID Site Observed Expected (BCK) O/E ratio (BCK) Total
dehalococcoides_mccartyi GTCGAC 9 12.60 0.714 1382303
dehalococcoides_mccartyi CCWGG 3381 3769.26 0.897 1382304
dehalococcoides_mccartyi YACGTR 431 435.85 0.989 1382303
По уровню СB последовательностей (колонка O/E ratio) видно, что все
3 указанные последовательности сайтов рестрикции несколько недопредставлены в
геноме. Однако действительно значимой (CB < 0.8) недопредставленностью
обладают лишь сайты GTCGAC (CB = 0.714). Интересно, что в REBASE
этот сайт указан, как мишень только для метилазы, хотя можно предположить, что
по нему атакует синтеничная этой метилазе никаза. Два других сайта
незначительно недопредставлены в геноме, хотя в REBASE они определены
как мишени 2 соответствующих рестриктаз – такое отсутствие
недопредставленности в случае функциональности генов рестриктаз может
свидетельствовать о недавнем приобретении бактерией данных RM систем.
|
Предсказание наличия в геноме сайтов рестрикции
В предположении, что недопредставленность потенциальных сайтов рестрикции
говорит о наличии эндонуклеаз, атакующих их, в исследуемом геноме была
определена представленность сайтов рестрикции длиннее 2 bp
всех известных Type II RM систем:
Команды:
cut -f 5 TypeII_REs.tsv | sed -r -n '/[a-z-]/!p' | sed -r -n '/^.{1,2}$/!p' | sort | uniq > all_sites.txt
cbcalc -K -s all_sites.txt dehalococcoides_mccartyi.fasta | sort -k5,5g | sed -r -n -e '1p'\
-e '/[a-z_]+\t[A-Z]+\t[0-9]+\t[0-9]+\.[0-9]+\t0\.[0-7][0-9]+\t/p'
Результат:
Sequence ID Site Observed Expected (BCK) O/E ratio (BCK) Total
dehalococcoides_mccartyi GATC 606 2253.87 0.269 1382305
dehalococcoides_mccartyi CTAG 773 2139.70 0.361 1382305
dehalococcoides_mccartyi TCGA 604 1241.25 0.487 1382305
dehalococcoides_mccartyi CGWCG 258 424.24 0.608 1382304
dehalococcoides_mccartyi GCGC 2531 3872.49 0.654 1382305
dehalococcoides_mccartyi GGNCC 1985 2938.07 0.676 1382304
dehalococcoides_mccartyi GGNNCC 1933 2834.15 0.682 1382303
dehalococcoides_mccartyi ATTAAT 156 220.58 0.707 1382303
dehalococcoides_mccartyi GTCGAC 9 12.60 0.714 1382303
dehalococcoides_mccartyi CCTAGG 22 30.41 0.724 1382303
dehalococcoides_mccartyi CACGTG 67 91.95 0.729 1382303
dehalococcoides_mccartyi TGCA 3900 5148.87 0.757 1382305
dehalococcoides_mccartyi GTGCAC 56 72.78 0.769 1382303
dehalococcoides_mccartyi ACGCGT 24 31.15 0.770 1382303
dehalococcoides_mccartyi CYCGRG 387 495.07 0.782 1382303
dehalococcoides_mccartyi CGCG 1577 1996.55 0.790 1382305
dehalococcoides_mccartyi CTCGAG 8 10.06 0.796 1382303
dehalococcoides_mccartyi GGWCC 620 775.57 0.799 1382304
Недопредставленные сайты рестрикции были отобраны по условному порогу:
CB (колонка O/E ratio) < 0.8. CB каждого предполагаемого сайта
рестрикции был рассчитан по алгоритму Карлина–Бёрджа программой
cbcalc.
|
Поиск экспериментально проверенных эндонуклеаз в геноме
по предсказанным сайтам рестрикции
По найденным в геноме недопредставленным предполагаемым сайтам рестрикции из
списка всех известных эндонуклеаз рестрикции
были отобраны REBASE имена белков с экспериментально подтверждённой
активностью ("no" в колонке Putative):
Команда:
cut -f 1,5,11 TypeII_REs.tsv | grep -f underrepresented_sites.txt |\
sed -r -n '/\tno$/p' | sort -k 2,2
Результат:
MluI ACGCGT no
AseI ATTAAT no
AbrI CTCGAG no
BstVI CTCGAG no
BsuMIA CTCGAG no
BsuMIB CTCGAG no
BsuMIC CTCGAG no
PaeR7I CTCGAG no
R1.BsuMI CTCGAG no
R2.BsuMI CTCGAG no
R3.BsuMI CTCGAG no
TliI CTCGAG no
XhoI CTCGAG no
AquI CYCGRG no
AvaI CYCGRG no
NspIII CYCGRG no
NgoBV GGNNCC no
NgoMV GGNNCC no
NlaIV GGNNCC no
AvaII GGWCC no
BceSII GGWCC no
Csp68KI GGWCC no
Eco47IA GGWCC no
Eco47IB GGWCC no
Eco47I GGWCC no
FssI GGWCC no
HgiBI GGWCC no
HgiCII GGWCC no
HgiEI GGWCC no
PmeII GGWCC no
SinI GGWCC no
BbrUII GTCGAC no
HgiDII GTCGAC no
RflFI GTCGAC no
SalI GTCGAC no
XamI GTCGAC no
AspBHII RGGWCCY no
Для предсказанных рестриктаз были получены белковые последовательности из
файла TypeII_RS.fasta. Программой tblastn был произведён поиск
этих последовательностей в геноме исследуемой бактерии (использована
Translation table 11 в соостветствии с указанием NCBI Taxonomy):
Команды:
seqret @predicted_names.list predicted_seqs.fasta
makeblastdb -in dehalococcoides_mccartyi.fasta -dbtype nucl -out dehalococcoides_mccartyi
tblastn -db dehalococcoides_mccartyi -query predicted_seqs.fasta -out report.tblastn -db_gencode 11\
-evalue 0.01 -word_size 3 -matrix BLOSUM45 -gapopen 10 -gapextend 3 -outfmt 3
Результат: выдача tblastn
В результате поиска предсказанных рестриктаз в геноме бактерии был обнаружен
только один предполагаемый гомолог рестриктазы BceSII. Однако
выравнивание находки с искомой последовательностью выглядит неубедительно и
E-value = 0.005 тоже оставляет желать лучшего.
Для проверки достоверности этой находки была получена и транслирована её
последовательность из генома исследуемой бактерии:
Команда:
seqret dehalococcoides_mccartyi.fasta[222528:222699] stdout | transeq -filter -table 11
Результат:
>NZ_CP006950.1_1 Dehalococcoides mccartyi CG4 chromosome, complete genome
FIRYAHSEVKLTAASILIPGLVEIDEIERIAQFIAGVNPDIPYFVLPYFPAGNNSWRX
Для полученной последовательности был запущен blastp поиск по базе
NCBI Non-redudndant protein sequences по всем бактериям отдела
Chloroflexi. Результаты поиска однозначно
показывают, что данная последовательность является частью белка
radical SAM domain protein и несёт домен активации пируват-формиат лиазы
– похоже, здесь нет никакой гомологии с
рестриктазой BceSII.
|
Обсуждение
В геноме исследуемого штамма бактерии были определены уровни представленности
сайтов рестрикции, указанных для его систем рестрикции-модификации типа II.
Однако только 1 из 3 сайтов обладает значительной недопредставленностью. Для
этого сайта не указана соответствующая рестриктаза, только метилаза; возможно,
он является мишенью синтеничной к этой метилазе никазы (одноцепочечная
эндонуклеаза).
Также в выбранном геноме были найдены недопредставленные последовательности
потенциальных сайтов рестрикции. Поиск в геноме экспериментально проверенных
рестриктаз соответствующих этим сайтам не был успешным, однако стоит отметить,
что все рестриктазы, по которым проводился поиск, имеют сайты с не самой
высокой недопредставленностью в выбранном геноме (IC > 0.68).
|
|
Поиск семейства гомологов белка с помощью PSI-BLAST
Был выбран белок с NCBI AC
Q7VDL2
– детерминирующий положение септы деления белок MinC цианобактерии
Prochlorococcus marinus.
Белки семейства MinC характерны для бактерий
(по данным Pfam),
они, входя в белковый комплекс Min на полюсах клеток,
являются ингибиторами полимеразации гомолога тубулина FtsZ,
предотвращая таким образом формирование Z-кольца, необходимого для цитокинеза,
везде кроме экватора бактериальной клетки. MinC состоит из консервативного
C-концевого домена (суперсемейство бактофилинов), обеспечивающего клеточную
локализацию белка через взаимодействие с MinD, и менее консервативного
N-концевого домена, непосредственно ингибирующего полимеризацию FtsZ.
Так как предполагался поиск отдалённых гомологов PSI-BLAST был запущен
с расслабленными параметрами: wordsize = 3, matrix = BLOSUM45,
gap_op/ext = 10/3, E-value threshold = 0.05,
PSSM inclusion E-value threshold = 0.005.
Таблица итераций запуска PSI-BLAST (первая итерация – по сути
просто запуск blastp):
Номер итерации поиска | Число находок выше порога (E-value < 0.005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 167 | A4WBG0 | 0.005 | Q5PNN8 | 0.005 |
2 | 188 | B6JKX0 | 5E-09 | – | – |
3 | 188 | Q9ZM51 | 3E-13 | – | – |
4 | 188 | Q9ZM51 | 2E-12 | – | – |
Итерации довольно быстро сошлись к единому списку находок: уже после второй
итерации (то есть первого использования PSSM для построения выравниваний)
обнаруживалось 188 находок, в последующих итрерациях изменялись только их
E-values. После первой итерации ступень E-value между включаемыми и
не включаемыми в построение PSSM находками была нулевая, более того хуже
порога находилось несколько гомологов (исходя из аннотации), хотя лучшая
по E-value находка хуже порога была не гомологична искомому белку.
На последующих итерациях (уже с использованием PSSM) находок хуже порога
не появлялось и E-value худшей находки было сильно меньше порогового значения.
Все находки в конечном списке, судя по аннотации, относятся к искомому
семейству MinC – видимо, белки этого семейства обладают достаточно
консеративной и дивергированной последовательностью, раз не находится никаких
пересечений с другими семействами после первого применения поиска с PSSM.
Учитывая вхождение С-концевого домена MinC в суперсемейство бактофилинов,
можно было бы ожидать в списке находок бактофилины – но, по всей
видимости, слишком слабая консервативность первичной структуры между
семействами.
|
|
|