Оценка представленности нуклеотидных последовательностей по Compositional bias и поиск гомологов белка алгоритмом PSI-BLAST

Предсказание ресткриктаз в геноме по недопредставленным сайтам рестрикции

Системы рестрикции-модификации типа II хараткетрны как для бактерий, так и для неэукариотических архей, представлены наборами комплементарных эндонуклеаз рестрикции и метилтрансфераз, распознающими одинаковые сайты рестрикции. После репликации генома метилазы метилируют нуклеобазы узнаваемого сайта рестрикции, если одна из цепей ДНК этого сайта уже метилирована, предотвращая таким образом появление вследствие следующей репликации молекулы ДНК с полностью неметилированным сайтом рестрикции, который уже являлся бы мишенью для рестриктазы. Такой механизм позволяет гидролизовать чужеродные молеклы ДНК (полностью неметилированные), отличая их от наследуемых вертикально участков ДНК (всегда метилированных хотя бы по одной цепи), и требует для содержания активного гена рестриктазы наличие активного гена метилазы, действующей на тот же сайт рестрикции. У систем типа II метилазы обычно работают независимо от рестриктаз, хотя встречаются случаи слияния двух белков.
Вследствие ошибок метилирования или недостаточной силы этого сигнала для рестриктаз, иногда может происходить и гидролиз собственной ДНК, убивающий клетку. Поэтому в геномах, содержащих гены систем рестрикции-модификации, идёт слабый негативный отбор на последовательности соответствующих сайтов рестрикции. По недопредставленности таких последовательностей в геноме можно судить о наличии специфичеких представителей систем рестрикции-модификации или о давности приобретения этих систем (при относительно недавнем HGT недопредставленность не успевает возникнуть).

Для поиска RM систем из базы REBASE был выбран полный геном бактерии Dehalococcoides mccartyi BTF08 (RefSeq AC NZ_CP006950) из отдела Chloroflexi.
По данным REBASE геном содержит 4 рестриктазы, включая одну никазу, и 6 метилаз (1 рестриктаза и 1 метилаза слиты), относящихся к RM systems type II. Также для генома указано 3 сайта рестрикции, узнаваемых некоторыми из этих ферментов.

Все используемые здесь файлы хранятся в директории ~stepan_puhov/term4/block2/pr8

Определение представленности в геноме сайтов рестрикции из REBASE

Для 3 последовательностей сайтов рестрикции, представленных в REBASE для выбранного генома, была оценена представленность в геноме в форме compositional bias (CB = Fobserved/Fexpected), подсчитанным по алгоритму Карлина–Бёрджа программой cbcalc:

Команда запуска программы:

cbcalc -K -s rebase_sites.txt dehalococcoides_mccartyi.fasta | sort -k5,5g
Результат:
Sequence ID     		Site    	Observed        Expected (BCK)  O/E ratio (BCK) Total
dehalococcoides_mccartyi        GTCGAC  	9       	12.60   	0.714   	1382303
dehalococcoides_mccartyi        CCWGG   	3381    	3769.26 	0.897   	1382304
dehalococcoides_mccartyi        YACGTR  	431     	435.85  	0.989   	1382303

По уровню СB последовательностей (колонка O/E ratio) видно, что все 3 указанные последовательности сайтов рестрикции несколько недопредставлены в геноме. Однако действительно значимой (CB < 0.8) недопредставленностью обладают лишь сайты GTCGAC (CB = 0.714). Интересно, что в REBASE этот сайт указан, как мишень только для метилазы, хотя можно предположить, что по нему атакует синтеничная этой метилазе никаза. Два других сайта незначительно недопредставлены в геноме, хотя в REBASE они определены как мишени 2 соответствующих рестриктаз – такое отсутствие недопредставленности в случае функциональности генов рестриктаз может свидетельствовать о недавнем приобретении бактерией данных RM систем.

Предсказание наличия в геноме сайтов рестрикции

В предположении, что недопредставленность потенциальных сайтов рестрикции говорит о наличии эндонуклеаз, атакующих их, в исследуемом геноме была определена представленность сайтов рестрикции длиннее 2 bp всех известных Type II RM систем:

Команды:

cut -f 5 TypeII_REs.tsv | sed -r -n '/[a-z-]/!p' | sed -r -n '/^.{1,2}$/!p' | sort | uniq > all_sites.txt

cbcalc -K -s all_sites.txt dehalococcoides_mccartyi.fasta | sort -k5,5g | sed -r -n -e '1p'\ -e '/[a-z_]+\t[A-Z]+\t[0-9]+\t[0-9]+\.[0-9]+\t0\.[0-7][0-9]+\t/p'
Результат:
Sequence ID     		Site    	Observed        Expected (BCK)  O/E ratio (BCK) Total
dehalococcoides_mccartyi        GATC    	606     	2253.87 	0.269   	1382305
dehalococcoides_mccartyi        CTAG    	773     	2139.70 	0.361   	1382305
dehalococcoides_mccartyi        TCGA    	604     	1241.25 	0.487   	1382305
dehalococcoides_mccartyi        CGWCG   	258     	424.24  	0.608   	1382304
dehalococcoides_mccartyi        GCGC    	2531    	3872.49 	0.654   	1382305
dehalococcoides_mccartyi        GGNCC   	1985    	2938.07 	0.676   	1382304
dehalococcoides_mccartyi        GGNNCC  	1933    	2834.15 	0.682   	1382303
dehalococcoides_mccartyi        ATTAAT  	156     	220.58  	0.707   	1382303
dehalococcoides_mccartyi        GTCGAC  	9       	12.60   	0.714   	1382303
dehalococcoides_mccartyi        CCTAGG  	22      	30.41   	0.724   	1382303
dehalococcoides_mccartyi        CACGTG  	67      	91.95   	0.729   	1382303
dehalococcoides_mccartyi        TGCA    	3900    	5148.87 	0.757   	1382305
dehalococcoides_mccartyi        GTGCAC  	56      	72.78   	0.769   	1382303
dehalococcoides_mccartyi        ACGCGT  	24      	31.15   	0.770   	1382303
dehalococcoides_mccartyi        CYCGRG  	387     	495.07  	0.782   	1382303
dehalococcoides_mccartyi        CGCG    	1577    	1996.55 	0.790   	1382305
dehalococcoides_mccartyi        CTCGAG  	8       	10.06   	0.796   	1382303
dehalococcoides_mccartyi        GGWCC   	620     	775.57  	0.799   	1382304

Недопредставленные сайты рестрикции были отобраны по условному порогу: CB (колонка O/E ratio) < 0.8. CB каждого предполагаемого сайта рестрикции был рассчитан по алгоритму Карлина–Бёрджа программой cbcalc.

Поиск экспериментально проверенных эндонуклеаз в геноме по предсказанным сайтам рестрикции

По найденным в геноме недопредставленным предполагаемым сайтам рестрикции из списка всех известных эндонуклеаз рестрикции были отобраны REBASE имена белков с экспериментально подтверждённой активностью ("no" в колонке Putative):

Команда:

cut -f 1,5,11 TypeII_REs.tsv | grep -f underrepresented_sites.txt |\
sed -r -n '/\tno$/p' | sort -k 2,2
Результат:
MluI    	ACGCGT 		 no
AseI    	ATTAAT 		 no
AbrI    	CTCGAG 		 no
BstVI   	CTCGAG 		 no
BsuMIA  	CTCGAG 		 no
BsuMIB  	CTCGAG 		 no
BsuMIC  	CTCGAG  	 no
PaeR7I  	CTCGAG  	 no
R1.BsuMI        CTCGAG  	 no
R2.BsuMI        CTCGAG  	 no
R3.BsuMI        CTCGAG  	 no
TliI    	CTCGAG  	 no
XhoI    	CTCGAG  	 no
AquI    	CYCGRG  	 no
AvaI    	CYCGRG  	 no
NspIII  	CYCGRG  	 no
NgoBV   	GGNNCC  	 no
NgoMV   	GGNNCC  	 no
NlaIV   	GGNNCC  	 no
AvaII   	GGWCC   	 no
BceSII  	GGWCC   	 no
Csp68KI 	GGWCC   	 no
Eco47IA 	GGWCC   	 no
Eco47IB 	GGWCC   	 no
Eco47I  	GGWCC   	 no
FssI    	GGWCC   	 no
HgiBI   	GGWCC   	 no
HgiCII  	GGWCC   	 no
HgiEI   	GGWCC   	 no
PmeII   	GGWCC   	 no
SinI    	GGWCC   	 no
BbrUII  	GTCGAC  	 no
HgiDII  	GTCGAC  	 no
RflFI   	GTCGAC  	 no
SalI    	GTCGAC  	 no
XamI    	GTCGAC  	 no
AspBHII 	RGGWCCY 	 no


Для предсказанных рестриктаз были получены белковые последовательности из файла TypeII_RS.fasta. Программой tblastn был произведён поиск этих последовательностей в геноме исследуемой бактерии (использована Translation table 11 в соостветствии с указанием NCBI Taxonomy):

Команды:

seqret @predicted_names.list predicted_seqs.fasta

makeblastdb -in dehalococcoides_mccartyi.fasta -dbtype nucl -out dehalococcoides_mccartyi
tblastn -db dehalococcoides_mccartyi -query predicted_seqs.fasta -out report.tblastn -db_gencode 11\ -evalue 0.01 -word_size 3 -matrix BLOSUM45 -gapopen 10 -gapextend 3 -outfmt 3
Результат: выдача tblastn

В результате поиска предсказанных рестриктаз в геноме бактерии был обнаружен только один предполагаемый гомолог рестриктазы BceSII. Однако выравнивание находки с искомой последовательностью выглядит неубедительно и E-value = 0.005 тоже оставляет желать лучшего.
Для проверки достоверности этой находки была получена и транслирована её последовательность из генома исследуемой бактерии:

Команда:

seqret dehalococcoides_mccartyi.fasta[222528:222699] stdout | transeq -filter -table 11
Результат:
>NZ_CP006950.1_1 Dehalococcoides mccartyi CG4 chromosome, complete genome
FIRYAHSEVKLTAASILIPGLVEIDEIERIAQFIAGVNPDIPYFVLPYFPAGNNSWRX

Для полученной последовательности был запущен blastp поиск по базе NCBI Non-redudndant protein sequences по всем бактериям отдела Chloroflexi. Результаты поиска однозначно показывают, что данная последовательность является частью белка radical SAM domain protein и несёт домен активации пируват-формиат лиазы – похоже, здесь нет никакой гомологии с рестриктазой BceSII.

Обсуждение

В геноме исследуемого штамма бактерии были определены уровни представленности сайтов рестрикции, указанных для его систем рестрикции-модификации типа II. Однако только 1 из 3 сайтов обладает значительной недопредставленностью. Для этого сайта не указана соответствующая рестриктаза, только метилаза; возможно, он является мишенью синтеничной к этой метилазе никазы (одноцепочечная эндонуклеаза).
Также в выбранном геноме были найдены недопредставленные последовательности потенциальных сайтов рестрикции. Поиск в геноме экспериментально проверенных рестриктаз соответствующих этим сайтам не был успешным, однако стоит отметить, что все рестриктазы, по которым проводился поиск, имеют сайты с не самой высокой недопредставленностью в выбранном геноме (IC > 0.68).


Поиск семейства гомологов белка с помощью PSI-BLAST

Был выбран белок с NCBI AC Q7VDL2 – детерминирующий положение септы деления белок MinC цианобактерии Prochlorococcus marinus.
Белки семейства MinC характерны для бактерий (по данным Pfam), они, входя в белковый комплекс Min на полюсах клеток, являются ингибиторами полимеразации гомолога тубулина FtsZ, предотвращая таким образом формирование Z-кольца, необходимого для цитокинеза, везде кроме экватора бактериальной клетки. MinC состоит из консервативного C-концевого домена (суперсемейство бактофилинов), обеспечивающего клеточную локализацию белка через взаимодействие с MinD, и менее консервативного N-концевого домена, непосредственно ингибирующего полимеризацию FtsZ.

Так как предполагался поиск отдалённых гомологов PSI-BLAST был запущен с расслабленными параметрами: wordsize = 3, matrix = BLOSUM45, gap_op/ext = 10/3, E-value threshold = 0.05, PSSM inclusion E-value threshold = 0.005.

Таблица итераций запуска PSI-BLAST (первая итерация – по сути просто запуск blastp):

Номер итерации поискаЧисло находок выше порога
(E-value < 0.005)
Идентификатор худшей находки выше порогаE-value этой находкиИдентификатор лучшей находки ниже порогаE-value этой находки
1167A4WBG00.005Q5PNN80.005
2188B6JKX05E-09
3188Q9ZM513E-13
4188Q9ZM512E-12

Итерации довольно быстро сошлись к единому списку находок: уже после второй итерации (то есть первого использования PSSM для построения выравниваний) обнаруживалось 188 находок, в последующих итрерациях изменялись только их E-values. После первой итерации ступень E-value между включаемыми и не включаемыми в построение PSSM находками была нулевая, более того хуже порога находилось несколько гомологов (исходя из аннотации), хотя лучшая по E-value находка хуже порога была не гомологична искомому белку. На последующих итерациях (уже с использованием PSSM) находок хуже порога не появлялось и E-value худшей находки было сильно меньше порогового значения.
Все находки в конечном списке, судя по аннотации, относятся к искомому семейству MinC – видимо, белки этого семейства обладают достаточно консеративной и дивергированной последовательностью, раз не находится никаких пересечений с другими семействами после первого применения поиска с PSSM. Учитывая вхождение С-концевого домена MinC в суперсемейство бактофилинов, можно было бы ожидать в списке находок бактофилины – но, по всей видимости, слишком слабая консервативность первичной структуры между семействами.


Главная страница


© Степан Пухов

2021