Главная | Семестры | Четвертый семестр |
Я запускал PSI-BLAST с query P39450 - S-(hydroxymethyl)glutathione dehydrogenase. Это глутатион дегидрогиназа,
также известная как алкогольдегидрогеназа класс 3 из протеобактерии Photobacterium damselae subsp. piscicida.
После пяти итераций PSI-BLAST со стандартным threshold 0.005 количество находок не стабилизировалось, поэтому я понижал порог E-value и остановился на значении 1,00E-11.
Результаты итераций в Excel - файле .
К четвертой итерации выдача стабилизировалалсь и новые последовательности перестали находиться. Разница в E-value в 4 итерации составила 6 порядков. В целом, среди находок явно присутствуют ферменты из класса оксиредуктаз, а у худшей находки в UniProt указана oxidoreductase activity.
Рестриктазы (эндонуклеазы рестрикции) - группа ферментов - гидролаз, которые вносят разрывы в цепь ДНК в специфическом участке,
узнаваемом рестриктазой. Эти ферменты обеспечивают бактериям защиту от чужеродной неметелированной ДНК. Рестриктазы и аналогичные им
искусственные ферменты используются в генной инженерии.
Представляется интересным понять, насколько часто разные сайты рестрикции встречаются в геноме организма, если, например, его
ДНК планируется модифицировать/разрезать в ходе эксперимента. Как мне кажется, в таком случае нас могут интересовать сайты, которые
редко встречаются в геноме, что позволит избежать большого количества разрывов в ненужных местах.
Для выполнения работы я отсортировал готовый файл с рестриктазами второго типа, оставив там только уникальные записи. Далее я удалил из него
3 строки: c пустой последовательностью, с последовательностью из одной буквы и заглавие таблицы. По оставшимся сайтам рестрикции был произведен
поиск в геноме бактерии Sphingopyxis alaskensis RB2256
и подсчитаны "контрасты" рестриктаз в геноме.
cut -f 1,5 TypeII_REs.tsv | sort -uk 2 > site.tsv cut -f 2 site.tsv | cat > site.txt cbcalc -s site.txt -o calc.tsv -K full_genome.fna
Далее, чтобы получить список рестриктаз с удовлетворительным контрастом, я написал скрипт: Jupyter Notebook. Я выбрал значение порогового контраста = 0.66, так как выше соседние значения различаются не сильно. Выходной файл со списком отобранных сайтов. Нашлось 13 рестриктаз, сайты узнавания которых, как мне кажется, являются недопредставленными в геноме данной бактерии. Затем я получил список рестриктаз (см. скрипт выше), узнающих такие сайты, при этом рестриктазы имеют экспериментальное подтверждение. Только 9 последовательностей найдены среди потвержденных рестриктаз. Таких рестриктаз же найдено 29, то есть разные рестриктазы узнают одинаковые сайты.