Практикум №8

Сигналы и мотивы-3

Проверка недопредставленности сайтов рестрикции в геноме бактерии.

Для начала необходимо было, используя базу данных REBASE, выбрать бактерию имеющую имеющую систему рестрикции-модификации II-типа. Я выбрал бактерию Roseiflexus castenholzii DSM 13941 (ссылка). Это термофильная фотосинтетическая грамотрицательная бактерия. Мне показалось интересным, что, хотя эта бактерия и относится к семейству Chlorobiaceae, но она не имеет хлоросом.

Рис.1. Roseiflexus castenholzii DSM 13941

Далее из таблицы был получен список сайтов рестрикции (файл). Это достаточно просто сделать при помощи excel, но я всё равно написал простенький код на python3 (результат):

with open('TypeII_RE.tsv', 'r') as file_in, open('restr_sites.txt', 'w') as file_out:
  for line in file_in:
  a = file_in.readline().strip().split(' ')
  if a[4] != '-':
   file_out.write(a[4])
   file_out.write('\n')

Этот список был передан на вход команде cbalc:
cbcalc -s restr_sites.tsv -o cbalc_out.tsv roseiflexus.fasta

К сожалению, я забыл выставить дополнительный параметр для команда --burge, так что помимо метода, который был необходим мне, программа добавила ещё два.

Далее из полученного файла я отобрал только те сайты, которые представлены в "моей" бактерии при помощи скрипта на python3 (скрипт, результат). Скрипт также убрал все повторяющиеся строки. Затем из полученного файла были убраны те сайты, значение контраста которых было меньше 0,8 (результат). Также привожу таблицу на сайте, для удобства.

Sequence ID Site Observed Expected (BCK) O/E ratio (BCK) Total
roseiflexus CGTACG 51 443.06 0.115 5723293
roseiflexus GGCC 6447 16988.34 0.379 5723295
roseiflexus GTCGAC 594 1277.74 0.465 5723293
roseiflexus CCGCGG 890 1570.46 0.567 5723293
roseiflexus RGATCY 1941 2875.15 0.675 5723293
roseiflexus GATATC 794 1058.93 0.750 5723293

Таблица 1. Таблица отобранных наиболее непредоставленных сайтов.

Затем из таблицы я отобрал только все эндонкуклезы, которые были экспериментально проверены, и узнают "мои" сайты (скрипт, результат).

PSI_BLAST

В данном задании необходимо было составить и оценить семейство гомологов белка, используя PSI-BLAST. Я выбрал Ribosome-associated inhibitor A с AC P0AD49. Данный белок предотвращает образование димера 70S во время стационарной фазы, вероятно, для того, чтобы регулировать эффективность трансляции при переходе между экспоненциальной и стационарной фазами. Также он защищает рибосому от диссоциации во время стресса окружающей среды.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 22 Q49VV1.1 3E-09 P0AD49.2 3,00E-80
2 27 O05886.4/td> 3E-04 P0AD49.2 1,00E-43
3 27 O05886.4 2E-24 P0AD49.2 3,00E-40
4 27 P24694.1 1,00E-24 P0AD49.2 7,00E-39
5 27 P24694.1 3,00E-24 P0AD49.2 3,00E-38
6 27 P24694.1 2,00E-24 P0AD49.2 1,00E-38

Таблица 2. Анализ семейства гомологов в PSI-BLAST.

После 4-й итерации результат стал стабильным, что, вероятно, говорит о том, что семейство хорошее.