Проверка недопредставленности сайтов рестрикции в геноме бактерии.
Для начала необходимо было, используя базу данных REBASE, выбрать бактерию имеющую имеющую систему рестрикции-модификации II-типа. Я выбрал бактерию Roseiflexus castenholzii DSM 13941 (ссылка). Это термофильная фотосинтетическая грамотрицательная бактерия. Мне показалось интересным, что, хотя эта бактерия и относится к семейству Chlorobiaceae, но она не имеет хлоросом.
Рис.1. Roseiflexus castenholzii DSM 13941
Далее из таблицы был получен список сайтов рестрикции (файл). Это достаточно просто сделать при помощи excel, но я всё равно написал простенький код на python3 (результат):
with open('TypeII_RE.tsv', 'r') as file_in, open('restr_sites.txt', 'w') as file_out:
for line in file_in:
a = file_in.readline().strip().split(' ')
if a[4] != '-':
file_out.write(a[4])
file_out.write('\n')
Этот список был передан на вход команде cbalc
:
cbcalc -s restr_sites.tsv -o cbalc_out.tsv roseiflexus.fasta
К сожалению, я забыл выставить дополнительный параметр для команда --burge
, так что помимо метода, который был необходим мне, программа добавила ещё два.
Далее из полученного файла я отобрал только те сайты, которые представлены в "моей" бактерии при помощи скрипта на python3 (скрипт, результат). Скрипт также убрал все повторяющиеся строки. Затем из полученного файла были убраны те сайты, значение контраста которых было меньше 0,8 (результат). Также привожу таблицу на сайте, для удобства.
Sequence ID | Site | Observed | Expected (BCK) | O/E ratio (BCK) | Total |
---|---|---|---|---|---|
roseiflexus | CGTACG | 51 | 443.06 | 0.115 | 5723293 |
roseiflexus | GGCC | 6447 | 16988.34 | 0.379 | 5723295 |
roseiflexus | GTCGAC | 594 | 1277.74 | 0.465 | 5723293 |
roseiflexus | CCGCGG | 890 | 1570.46 | 0.567 | 5723293 |
roseiflexus | RGATCY | 1941 | 2875.15 | 0.675 | 5723293 |
roseiflexus | GATATC | 794 | 1058.93 | 0.750 | 5723293 |
Таблица 1. Таблица отобранных наиболее непредоставленных сайтов.
Затем из таблицы я отобрал только все эндонкуклезы, которые были экспериментально проверены, и узнают "мои" сайты (скрипт, результат).
PSI_BLAST
В данном задании необходимо было составить и оценить семейство гомологов белка, используя PSI-BLAST. Я выбрал Ribosome-associated inhibitor A с AC P0AD49. Данный белок предотвращает образование димера 70S во время стационарной фазы, вероятно, для того, чтобы регулировать эффективность трансляции при переходе между экспоненциальной и стационарной фазами. Также он защищает рибосому от диссоциации во время стресса окружающей среды.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 22 | Q49VV1.1 | 3E-09 | P0AD49.2 | 3,00E-80 |
2 | 27 | O05886.4/td> | 3E-04 | P0AD49.2 | 1,00E-43 |
3 | 27 | O05886.4 | 2E-24 | P0AD49.2 | 3,00E-40 |
4 | 27 | P24694.1 | 1,00E-24 | P0AD49.2 | 7,00E-39 |
5 | 27 | P24694.1 | 3,00E-24 | P0AD49.2 | 3,00E-38 |
6 | 27 | P24694.1 | 2,00E-24 | P0AD49.2 | 1,00E-38 |
Таблица 2. Анализ семейства гомологов в PSI-BLAST.
После 4-й итерации результат стал стабильным, что, вероятно, говорит о том, что семейство хорошее.