Недопредставленность сайтов рестрикции в геноме Vibrio cholerae

Выбор осуществлен с помощью веб-сервиса REBASE, схематическое изображение хромосомы, содержащей гены систем PM находится по ссылке. Единственный ген системы рестрикции-модификации типа II с известным сайтом рестрикции (GATC) - CP036499. Из фермента этого гена была сформирована таблица эндонуклеаз.

Геном (без аннотации) бактерии был скачан и находится по ссылке. Для оценки представленности сайтов в геноме была использована программа CBcalc:

cbcalc -s sites.txt -o out.tsv -K vbcl1c.fasta
sort -k5,5g out.tsv > sorted.tsv

В итоге был получен файл. Среди находок все системы прошли порог по O/E ratio. Проверка представленности остальных сайтов рестрикции осуществлена аналогичным образом из файла , с соответствующим выходным файлом. Список сайтов находится по ссылке. Все находки прошли порог в 0.8 O/E ratio, и их не пришлось дополнительно вырезать.

Список команд по обработке таблицы и оценке представленности в геноме:

cat TypeII_REs.tsv | awk -F "\t" '{if  (($5 == "GATC" || $5 == "R") && $11 == "no") print $0}' > cut.tsv
cbcalc -s cut.tsv -o out.tsv -K vbcl1c.fasta
sort -k5,5g out.tsv > sorted1.tsv

PSI-BLAST

Для выбранного белка с AC Q7VDL2 было создано семейство гомологом путем последовательных итераций в PSI-BLAST. Данный белок является возможным септовым сайт-опредляющим белком MinC из Prochlorococcus marinus (strain SARG / CCMP1375 / SS120). Его функция - ингибитор деления клеток, блокирующий образование полярных Z-кольцевых перегородок. Вего было проведено шесть запусков со всеми параметрами по умолчанию. В качестве базы данный был использован Swiss-Prot. Список находок лучше порога E-value в 0.005 перестал изменяться с четвертой итерации (то есть впервые образовался на четвертой и не поменялся на пятой и шестой). Семейство одинаково по названиям, но последний белок в нем (худшая находка) называется ГТФазой Obg. С учетом того, что его E-value увеличилось на порядок во время шестой итерации можно предположить, что он попал в семейство по ошибке. Таблица с подробностями запусков находится по ссылке.