import pandas as pd
Для анализа недопредставленности сайтов рестрикции был выбран геном Helicobacter pylori J99 в силу большой изученности генома этой бактерии.
В геноме у этой бактерии есть ген рестриктаза HpyS300ORF3160P, которая узнает сайт рестрикции GAAGA.
Далее были получены следующие сайты рестрикции:
GTSAC, GATC, CCGG, ACNGT, ACGT, GTAC, CCNNGG, CGWCG, GTNNAC, TCNNGA, GANTC, GAAGA.
Представленность вышеприведенных сайтов рестрикции оценивалась с помощью программы CBcalc:
cbcalc -K Hpy99.fasta -s restriction_sites.txt | sort -k 5 -n > result_cbcalc.tsv
Результат выполнения вышеприведенной команды приведен ниже.
result_cbcalc = pd.read_csv('result_cbcalc.tsv', sep='\t')
sites = list(result_cbcalc.loc[result_cbcalc['O/E ratio (BCK)'] < 0.8, 'Site'])
result_cbcalc
Таким образом, программой было обнаружено 7 сайтов с показателем 'O/E' < 0.8.
Далее в таблице TypeII_REs.tsv были найдены экспериментально проверенные эндонуклеазы, которые узнают эти сайты.
type2_res = pd.read_csv('TypeII_REs.tsv', sep='\t')
endonucl = type2_res.loc[(type2_res['Recognition site'].isin(sites)) & (type2_res['Putative']=='no')]
with open('endonucl_list.txt', 'w') as f:
for name in endonucl['#:REBASE name']:
f.write(name)
f.write('\n')
Таким образом, обнаружено 23 экспериментально проверенных рестриктаз, узнающих указанные выше сайты рестрикции. Их список доступен по ссылке.
Был выбран белок с AC P19954, принадлежащий Spinacia oleracea, - хлоропластный фактор связывания рибосомы, вовлеченный в температуро- и светозависимый синтез белков. Он взаимодействует с 16S рРНК в A- и Р-сайтами рибосомы, где ингибирует трансляцию, предотвращая связывание тРНК. Также белок стабилизирует хлоропластную рибосому.
table = pd.read_excel('psi_blast_output.xlsx')
table
С выдачей на 5-й итерации можно ознакомиться по ссылке. Алгоритм сошелся на третьей итерации.
Из полученных находок только одна принадлежит растению, остальные - бактериям. Все они являются факторами гибернации рибосомы, то есть белками, которые обеспечивают димеризацию 70S рибосомы с образованием 100S структуры.
После первой находки в выдаче резко падают процент идентичности и покрытие.
Все найденные белки обладают способностью связывать 70S рибосому и, вероятно, по этой причине у них нашлись похожие участки. Однако их функции различаются, из чего можно сделать вывод, что они не образуют одно семейство.