Недопредставленность сайтов рестрикции

In [ ]:
import pandas as pd

Для анализа недопредставленности сайтов рестрикции был выбран геном Helicobacter pylori J99 в силу большой изученности генома этой бактерии.

В геноме у этой бактерии есть ген рестриктаза HpyS300ORF3160P, которая узнает сайт рестрикции GAAGA.

Далее были получены следующие сайты рестрикции:

GTSAC, GATC, CCGG, ACNGT, ACGT, GTAC, CCNNGG, CGWCG, GTNNAC, TCNNGA, GANTC, GAAGA.

Представленность вышеприведенных сайтов рестрикции оценивалась с помощью программы CBcalc:

cbcalc -K Hpy99.fasta -s restriction_sites.txt | sort -k 5 -n > result_cbcalc.tsv

Результат выполнения вышеприведенной команды приведен ниже.

In [ ]:
result_cbcalc = pd.read_csv('result_cbcalc.tsv', sep='\t')
sites = list(result_cbcalc.loc[result_cbcalc['O/E ratio (BCK)'] < 0.8, 'Site'])
result_cbcalc
Out[ ]:
Sequence ID Site Observed Expected (BCK) O/E ratio (BCK) Total
0 Hpy99 GTSAC 104 589.64 0.176 1615195
1 Hpy99 GTAC 178 749.10 0.238 1615196
2 Hpy99 ACGT 499 1837.94 0.271 1615196
3 Hpy99 GTNNAC 334 1229.23 0.272 1615194
4 Hpy99 ACNGT 594 1702.45 0.349 1615195
5 Hpy99 TCNNGA 1906 3049.36 0.625 1615194
6 Hpy99 CGWCG 265 385.51 0.687 1615195
7 Hpy99 CCNNGG 1174 1667.39 0.704 1615194
8 Hpy99 GANTC 2691 3339.10 0.806 1615195
9 Hpy99 GATC 5500 6037.98 0.911 1615196
10 Hpy99 GAAGA 2134 2283.80 0.934 1615195
11 Hpy99 CCGG 1765 1191.27 1.482 1615196

Таким образом, программой было обнаружено 7 сайтов с показателем 'O/E' < 0.8.

Далее в таблице TypeII_REs.tsv были найдены экспериментально проверенные эндонуклеазы, которые узнают эти сайты.

In [ ]:
type2_res = pd.read_csv('TypeII_REs.tsv', sep='\t')
endonucl = type2_res.loc[(type2_res['Recognition site'].isin(sites)) & (type2_res['Putative']=='no')]
In [ ]:
with open('endonucl_list.txt', 'w') as f:
  for name in endonucl['#:REBASE name']:
    f.write(name)
    f.write('\n')

Таким образом, обнаружено 23 экспериментально проверенных рестриктаз, узнающих указанные выше сайты рестрикции. Их список доступен по ссылке.

PSI-BLAST

Был выбран белок с AC P19954, принадлежащий Spinacia oleracea, - хлоропластный фактор связывания рибосомы, вовлеченный в температуро- и светозависимый синтез белков. Он взаимодействует с 16S рРНК в A- и Р-сайтами рибосомы, где ингибирует трансляцию, предотвращая связывание тРНК. Также белок стабилизирует хлоропластную рибосому.

In [ ]:
table = pd.read_excel('psi_blast_output.xlsx')
table
Out[ ]:
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки.1
0 1 17 P30334.1 2.000000e-03 нет нет
1 2 29 P9WMA8.1 3.000000e-03 нет нет
2 3 28 P9WMA8.1 1.000000e-12 нет нет
3 4 28 P9WMA8.1 1.000000e-12 нет нет
4 5 28 P9WMA8.1 1.000000e-12 нет нет

С выдачей на 5-й итерации можно ознакомиться по ссылке. Алгоритм сошелся на третьей итерации.

Из полученных находок только одна принадлежит растению, остальные - бактериям. Все они являются факторами гибернации рибосомы, то есть белками, которые обеспечивают димеризацию 70S рибосомы с образованием 100S структуры.

После первой находки в выдаче резко падают процент идентичности и покрытие.

Все найденные белки обладают способностью связывать 70S рибосому и, вероятно, по этой причине у них нашлись похожие участки. Однако их функции различаются, из чего можно сделать вывод, что они не образуют одно семейство.