Для анализа была выбрана бактерия Acetobacter oryzifermentans strain:SLV-7, т.к. в ней есть системы Р-М типа II с известными сайтами рестрикции.
После выбора бактерии её геном был скачан с NCBI. Его можно посмотреть по ссылке. Для оценки
представленности сайтов рестрикции была использована команда cbcalc.
cbcalc -s TypeII_REs.tsv -o out.tsv genome.fna
Выдачу команды можно посмотреть здесь. Затем полученный csv-файл был отсортирован командой
sort -k5,5g out.tsv > out_sorted.tsv
В силу нежелания заморачиваться порог контраста был взят из условия задания, а именно 0.8. Фильтрация производилась с помощью команды:
awk '$5 + 0 <= 0.8' out.tsv > ans.tsv
Полученный файл можно посмотреть здесь. Дальше перед нами стояла задача выяснить, какие рестриктазы могут
узнавать недопредставленные в геноме нашей бактерии сайты. Для этого была использована команда:
cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> no.txt
Эта команда выбрала из общего списка рестриктаз те, у которых в стобце Predicted записано no, то есть экспериментально проверенные.
После этого необходимо было снова профильтровать список рестриктаз, на предмет узнавания недопредставленных сайтов. Для этого был написан скрипт на питоне, который всё и сделал.
Результат можно посмотреть по этой ссылке.
Был выбран идентификатор P0AD49 - Ribosome-associated inhibitor A у E.coli. Как понятно из названия, является ингибитором работы рибосом (кто-то пишет, что он блокирует А-сайт, кто-то ещё пишет, что он препятствует образованию 70S димера рибосом).
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | Е-value этой находки | Идентификатор лучшей находки ниже порога | Е-value этой находки |
1 | 22 | Q49VV1.1 | 8e-04 | p19954.2 | 0.023 |
2 | 27 | O05886.4 | 3e-09 | - | - |
3 | 27 | O05886.4 | 2e-24 | - | - |
Как видно, список находок стабилизировался уже после третьей итерации. Это говорит о высокой консервативности семейства выбранных белков.