Известно, что существует отбор против сайтов узнавания эндонуклеаз рестрикции в геномных ДНК бактерий. Пользуясь этим, мы хотим предсказать существование эндонуклеаз рестрикции бактерии по недопредставленностям специфических сайтов. В данном задании решила проанализировать геном Echerichia coli штамма O157:H7 EDL933 из базы данных Rebase. Сперва осуществлялся поиск вгеномепотенциальных сайтов рестрикции из предоставленной в материалах таблице программой cbcalc на Кодомо:
cbcalc -s TypeII_REs.tsv -o out.tsv sequence.fasta
Результат был записан в файлout.tsv.
Далее при помощискрипта я отобрала экспериментально проверенные эндонуклеазы. В нём я отфильтровала сайты по длине (не меньше 3х нуклеотидов), по O/E ratio <0.8 для поиска более недопредставленных, и удалила дубликаты.
В этом задании нужно было найти семейство гомологичных белков для выбранного нами белка из предостваленных материалов. Выбрала белок с идентификатором O05886, который является фактором гибернации рибосом. Он участвует в димеризации 70S в 100S субъединиц рибосом во время G0 фазы клеточного цикла. Белок принадлежит бактерии Mycobacterium tuberculosis штамма ATCC 25618/H37Rv. Далее приведена таблица итераций:
Номер итерации | Число находок выше порога (0,005) | ID худшей находки выше порога | E-value | ID лучшей находки выше порога | E-value |
---|---|---|---|---|---|
1 | 20 | P17161.1 | 0.003 | P17160.1 | 0.005 |
2 | 28 | P9WMA8.1 | 0.003 | B4L535.1 | 0.074 |
3 | 29 | A0A1S4NYE3.2 | 0.004 | P33621.1 | 0.014 |
4 | 30 | D5CBA0.1 | 0.001 | Q5JGT7.1 | 0.50 |
5 | 30 | P9WMA8.1 | 4*10^(-19) | Q6IE64.1 | 0.21 |
6 | 30 | P9WMA8.1 | 5*10^(-19) | Q6IE64.1 | 0.23 |
Было проведено 5 итераций. Так как разрыв в e-value между надпороговой и подпороговой позицей доходит до 18 порядков, вероятно данные находки составляют семейство гомологичных белков.