Практикум 8. Сигналы и мотивы, часть 3
В ходе этого практикума был выполнен поиск недопредставленных сайтов рестрикции в геноме Microcystis aeruginosa, а также построено семейство белков посредством алгоритма PSI-BLAST.
Поиск недопредставленных сайтов рестрикции в геноме бактерии
Для этой цели был выбран геном цианобактерии Microcystis aeruginosa (ссылка на файл). Далее при помощи программы CBcalc был проведён анализ представленности сайтов рестрикции (из списка эндонуклеаз рестрикции в файле TypeII_REs.tsv) в данном геноме:
cbcalc genome.fasta -s TypeII_REs.tsv -o result.tsv --burge
Выдача программы доступна здесь. Затем из выдачи были отобраны сайты с контрастом (Observed/Expected) менее 0.8 (файл).
Чтобы получить список эндонуклеаз рестрикции, сайты которых недопредставлены в геноме, был написан скрипт на Python, который принимает на вход изначальный список эндонуклеаз (TypeII_REs.tsv) и файл с недопредставленными сайтами, полученный ранее. В выходном файле оказываются записи из TypeII_REs.tsv, для которых в поле «Putative» стоит значение «no» (т. е. есть экспериментальные свидетельства существования эндонуклеазы), а также значение из поля «Recognition site» присутствует в списке недопредставленных сайтов из второго входного файла. Результат работы скрипта доступен по ссылке. Далее приведён полученный список эндонуклеаз рестрикции и их сайтов:
Просмотреть список
AatI AGGCCT AatII GACGTC AbrI CTCGAG Acc65I GGTACC Afa22MI CGATCG Aor13HI TCCGGA AplI CTGCAG AquI CYCGRG AvaI CYCGRG AvaII GGWCC AvaIII ATGCAT BamFI GGATCC BamHI GGATCC BbrUII GTCGAC BbrUIII CTGCAG BceSII GGWCC BfuAII GCATGC BsaAI YACGTR BsaHI GRCGYC Bsp98I GGATCC BspEI TCCGGA BssHII GCGCGC BstVI CTCGAG BsuBI CTGCAG BsuMIA CTCGAG BsuMIB CTCGAG BsuMIC CTCGAG CatHI CTCTTC Cfr42I CCGCGG Csp68KI GGWCC Csp68KIIR TTCGAA Csp68KIIR ATGCAT DdsI GGATCC Eco1524I AGGCCT Eco29kI CCGCGG Eco47I GGWCC Eco47IA GGWCC Eco47IB GGWCC EcoGIII CTGCAG EcoT38I GRGCYC FseI GGCCGGCC FspI TGCGCA FssI GGWCC HgiBI GGWCC HgiCI GGYRCC HgiCII GGWCC HgiDI GRCGYC HgiDII GTCGAC HgiEI GGWCC HgiGI GRCGYC KasI GGCGCC Kpn2I TCCGGA KpnI GGTACC LlaDI AGTACT McaTI GCGCGC MluI ACGCGT MspA1I CMGCKG NgoAIII CCGCGG NgoMIII CCGCGG NheI GCTAGC NmeSI AGTACT NspHI RCATGY NspI RCATGY NspIII CYCGRG NspV TTCGAA PaeR7I CTCGAG PciI ACATGT PluTI GGCGCC PmeII GGWCC PvuI CGATCG R1.BbrUI GGCGCC R1.BsuMI CTCGAG R2.BsuMI CTCGAG R3.BsuMI CTCGAG RflFI GTCGAC RshI CGATCG SacI GAGCTC SalI GTCGAC SbfI CCTGCAGG ScaI AGTACT SdaI CCTGCAGG SenpCI CCGCGG Sgr13350I GAGCTC SinI GGWCC SnaBI TACGTA SpeI ACTAGT SphI GCATGC TdeII CTCTTC TliI CTCGAG Tth111I GACNNNGTC XamI GTCGAC XhoI CTCGAG XorKI CGATCG XorKII CTGCAG XphI CTGCAG XveI CTGCAG
Составление семейства гомологичных белков с помощью PSI-BLAST
Для этого задания был выбран белок Probable septum site-determining protein MinC (AC: Q7VDL2) из Prochlorococcus marinus, являющийся ингибитором деления клетки. Результат запуска итераций PSI-BLAST по этому белку представлен в таблице 1.
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 4.00E-08 | - | - |
3 | 188 | Q9ZM51.1 | 2.00E-13 | - | - |
4 | 188 | Q9ZM51.1 | 2.00E-15 | - | - |
Можно видеть, что список потенциальных белков, входящих в семейство, стабилизировался на четвёртой итерации; при этом E-value самой худшей находки оказался на много порядков ниже порогового, значит, белки семейства получилось надёжно отличить от остальных белков, что говорит об их консервативности. Итоговый список находок можно просмотреть здесь.