Практикум 8. Сигналы и мотивы, часть 3

В ходе этого практикума был выполнен поиск недопредставленных сайтов рестрикции в геноме Microcystis aeruginosa, а также построено семейство белков посредством алгоритма PSI-BLAST.

Поиск недопредставленных сайтов рестрикции в геноме бактерии

Для этой цели был выбран геном цианобактерии Microcystis aeruginosa (ссылка на файл). Далее при помощи программы CBcalc был проведён анализ представленности сайтов рестрикции (из списка эндонуклеаз рестрикции в файле TypeII_REs.tsv) в данном геноме:

cbcalc genome.fasta -s TypeII_REs.tsv -o result.tsv --burge

Выдача программы доступна здесь. Затем из выдачи были отобраны сайты с контрастом (Observed/Expected) менее 0.8 (файл).

Чтобы получить список эндонуклеаз рестрикции, сайты которых недопредставлены в геноме, был написан скрипт на Python, который принимает на вход изначальный список эндонуклеаз (TypeII_REs.tsv) и файл с недопредставленными сайтами, полученный ранее. В выходном файле оказываются записи из TypeII_REs.tsv, для которых в поле «Putative» стоит значение «no» (т. е. есть экспериментальные свидетельства существования эндонуклеазы), а также значение из поля «Recognition site» присутствует в списке недопредставленных сайтов из второго входного файла. Результат работы скрипта доступен по ссылке. Далее приведён полученный список эндонуклеаз рестрикции и их сайтов:

Просмотреть список

AatI		AGGCCT
AatII		GACGTC
AbrI		CTCGAG
Acc65I		GGTACC
Afa22MI		CGATCG
Aor13HI		TCCGGA
AplI		CTGCAG
AquI		CYCGRG
AvaI		CYCGRG
AvaII		GGWCC
AvaIII		ATGCAT
BamFI		GGATCC
BamHI		GGATCC
BbrUII		GTCGAC
BbrUIII		CTGCAG
BceSII		GGWCC 
BfuAII		GCATGC
BsaAI		YACGTR
BsaHI		GRCGYC
Bsp98I		GGATCC
BspEI		TCCGGA
BssHII		GCGCGC
BstVI		CTCGAG
BsuBI		CTGCAG
BsuMIA		CTCGAG
BsuMIB		CTCGAG
BsuMIC		CTCGAG
CatHI		CTCTTC
Cfr42I		CCGCGG
Csp68KI		GGWCC
Csp68KIIR	TTCGAA
Csp68KIIR	ATGCAT
DdsI		GGATCC
Eco1524I	AGGCCT
Eco29kI		CCGCGG
Eco47I		GGWCC
Eco47IA		GGWCC
Eco47IB		GGWCC
EcoGIII		CTGCAG
EcoT38I		GRGCYC
FseI		GGCCGGCC
FspI		TGCGCA
FssI		GGWCC
HgiBI		GGWCC
HgiCI		GGYRCC
HgiCII		GGWCC
HgiDI		GRCGYC
HgiDII		GTCGAC
HgiEI		GGWCC
HgiGI		GRCGYC
KasI		GGCGCC
Kpn2I		TCCGGA
KpnI		GGTACC
LlaDI		AGTACT
McaTI		GCGCGC
MluI		ACGCGT
MspA1I		CMGCKG
NgoAIII		CCGCGG
NgoMIII		CCGCGG
NheI		GCTAGC
NmeSI		AGTACT
NspHI		RCATGY
NspI		RCATGY
NspIII		CYCGRG
NspV		TTCGAA
PaeR7I		CTCGAG
PciI		ACATGT
PluTI		GGCGCC
PmeII		GGWCC
PvuI		CGATCG
R1.BbrUI	GGCGCC
R1.BsuMI	CTCGAG
R2.BsuMI	CTCGAG
R3.BsuMI	CTCGAG
RflFI		GTCGAC
RshI		CGATCG
SacI		GAGCTC
SalI		GTCGAC
SbfI		CCTGCAGG
ScaI		AGTACT
SdaI		CCTGCAGG
SenpCI		CCGCGG
Sgr13350I	GAGCTC
SinI		GGWCC
SnaBI		TACGTA
SpeI		ACTAGT
SphI		GCATGC
TdeII		CTCTTC
TliI		CTCGAG
Tth111I		GACNNNGTC
XamI		GTCGAC
XhoI		CTCGAG
XorKI		CGATCG
XorKII		CTGCAG
XphI		CTGCAG
XveI		CTGCAG

Составление семейства гомологичных белков с помощью PSI-BLAST

Для этого задания был выбран белок Probable septum site-determining protein MinC (AC: Q7VDL2) из Prochlorococcus marinus, являющийся ингибитором деления клетки. Результат запуска итераций PSI-BLAST по этому белку представлен в таблице 1.

Таблица 1. Итерации PSI-BLAST по AC: Q7VDL2
Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 4.00E-08 - -
3 188 Q9ZM51.1 2.00E-13 - -
4 188 Q9ZM51.1 2.00E-15 - -

Можно видеть, что список потенциальных белков, входящих в семейство, стабилизировался на четвёртой итерации; при этом E-value самой худшей находки оказался на много порядков ниже порогового, значит, белки семейства получилось надёжно отличить от остальных белков, что говорит об их консервативности. Итоговый список находок можно просмотреть здесь.