После поиска бактерии в REBASE, была выбрана Gallibacterium anatis, т.к. в ней есть системы Р-М типа II с известными сайтами рестрикции.
Gallibacterium anatis — грамотрицательная бактерия семейства Pasteurellaceae, обитающая в норме в дыхательных и репродуктивных путях домашней птицы. Это основная причина заболевания домашних птиц, что приводит к снижению яйценостность и смертности кур, что серьезно влияет на общую продуктивность птицеводческих предприятий в Европе, Азии, Америке и Африке. Кроме того, бактерия способна заражать и диких птиц, а также млекопитающих, таких как крупный рогатый скот, свиней и человека.
После выбора бактерии её геном был скачан с NCBI. Для оценки представленности сайтов рестрикции была использована следущая команда:
cbcalc -s TypeII_REs.tsv -o out.tsv sequence.fasta
Результат. Файл out.tsv был отсортирован и отфильтрован командой, в этот раз не забудем выбрать уникальные:
awk '{if ($5+0 <= 0.8) print}' out.tsv | sort | uniq > out_sorted.tsvПосле сортировки, фильтрации и отбора уникальных получили 33 сайта.
Результат. Следущей целью стали рестриктазы, которые могут узнавать недопредставленные в геноме Gallibacterium anatis UMN179 сайты:
cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> no.txtРезультат.
Команда выбрала из общего списка рестриктаз, представленного на kodomo, те, у которых в стобце "Predicted" стоит "no". Ну и осталось отфильтровать список рестриктаз на узнавание непредставленных сайтов. Для этого был написан скрипт.
Результат. В финальном файле осталось 119 записей о недопредставленных в геноме рестриктазах.
Был выбран идентификатор P0AD49 - Ribosome-associated inhibitor A у E.coli. Является ингибитором работы рибосом, вероятно блокируя A-сайт.
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | Е-value этой находки | Идентификатор лучшей находки ниже порога | Е-value этой находки |
1 | 22 | Q49VV1.1 | 8e-04 | P19954.2 | 0.023 |
2 | 27 | O05886.4 | 3e-09 | - | - |
3 | 27 | O05886.4 | 2e-24 | - | - |
После третий этирации BLAST сообщил: "No new sequences were found above the 0.005 threshold". Такой результат говорить о высокой консервативности белков, выбранного семейства.