Сигналы и мотивы

Для анализа была выбрана бактерия Acetobacter oryzifermentans strain:SLV-7, т.к. в ней есть системы Р-М типа II с известными сайтами рестрикции.

Рис.1 Карта генома выбранной бактерии. В ней есть Type II с известными сайтами рестрикции, судя по таблице.

После выбора бактерии её геном был скачан с NCBI. Его можно посмотреть по ссылке. Для оценки представленности сайтов рестрикции была использована команда cbcalc.

cbcalc -s TypeII_REs.tsv -o out.tsv genome.fna

Выдачу команды можно посмотреть здесь. Затем полученный csv-файл был отсортирован командой

sort -k5,5g out.tsv > out_sorted.tsv

В силу нежелания заморачиваться порог контраста был взят из условия задания, а именно 0.8. Фильтрация производилась с помощью команды:

awk '$5 + 0 <= 0.8' out.tsv > ans.tsv

Полученный файл можно посмотреть здесь. Дальше перед нами стояла задача выяснить, какие рестриктазы могут узнавать недопредставленные в геноме нашей бактерии сайты. Для этого была использована команда:

cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> no.txt

Эта команда выбрала из общего списка рестриктаз те, у которых в стобце Predicted записано no, то есть экспериментально проверенные. После этого необходимо было снова профильтровать список рестриктаз, на предмет узнавания недопредставленных сайтов. Для этого был написан скрипт на питоне, который всё и сделал.
Результат можно посмотреть по этой ссылке.

PSI-BLAST

Был выбран идентификатор P0AD49 - Ribosome-associated inhibitor A у E.coli. Как понятно из названия, является ингибитором работы рибосом (кто-то пишет, что он блокирует А-сайт, кто-то ещё пишет, что он препятствует образованию 70S димера рибосом).

Таблица 1. Результат PSI-BLAST.
Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога Е-value этой находки Идентификатор лучшей находки ниже порога Е-value этой находки
1 22 Q49VV1.1 8e-04 p19954.2 0.023
2 27 O05886.4 3e-09 - -
3 27 O05886.4 2e-24 - -

Как видно, список находок стабилизировался уже после третьей итерации. Это говорит о высокой консервативности семейства выбранных белков.