В базе данных REBASE была выбрана бактерия Acetobacterium woodii DSM 1030, имеющая системы РМ второго типа. Acetobacterium - это род анаэробных грамположительных бактерий, принадлежащих к семейству Eubacteriaceae
Геном был скачан. И для оценки представленности сайтов рестрикции была запущена команда:
cbcalc -s TypeII_REs.tsv -o out.tsv sequence.fasta
Полученный файл был отсортирован командой:
awk '{if ($5+0 <= 0.8) print}' out.tsv | sort | uniq > out_sorted.tsv
Получилось 15 сайтов
Для поиска рестриктаз, узнающих недопредставленные в геноме Acetobacterium woodii DSM 1030 сайты:
cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> no.txt
После этого с помощью скрипта Ренаты Бетеньковой я отфильтровал список рестриктаз на узнавание непредставленных сайтов.
Был выбран АС P0AD49 - ингибитор рибосом.
Номер | Количество находок выше порога (0.005) | АС худшей находки выше порога | Е-value | АС лучшей находки ниже порога | Е-value |
1 | 22 | Q49VV1.1 | 8e-04 | P19954.2 | 0.023 |
2 | 27 | O05886.4 | 3e-09 | - | - |
3 | 27 | O05886.4 | 2e-24 | - | - |