Практикум 8.

1. PSI-BLAST

скачать таблицу итераций


выбранное AC: Q67XL4
что это за белок (организм, функция): Arabidopsis thaliana, белок имеет CRM (рнк-связывающий домен), встречается в хлоропластах.
таблица итераций: результат удалось стабилизировать; после 5-й итерации находок оказалось 27 (я считаю это выпадающим значением, см. таблицу - в основном диапазон результатов - от 18 до 21); семейство можно считать хорошим, поскольку разница между лучшим результатом ниже порога и худшим выше порога составила 55 порядков (см. итерация №7).

2. Эндонуклеазы рестрикции

Эндонуклеазы рестрикции II типа - внутриядерные ферменты, разрезающие днк по строго определенным сайтам (коротким последовательностям). У ДНК клетки эти сайты обычно метилированы, и это не дает эндонуклеазам распознавать их как мишени. Но иногда что-то идет не так, и тогда последовательность разрезается. А это плохо. Логичный выход - уменьшить количество сайтов узнавания в ДНК, чтобы случайно (при возникновении бед с метилированием) последовательность не была разрезана. То есть если мы видим, что некоторые сайты в геноме недопредставлены, то можно предположить, что это сайт узнавания эндонуклеазы рестрикции.

Ищем специфичные эндонуклеазы рестрикции Desulfarculus baarsii DSM 2075.

1. Получение списка потенциальных сайтов рестрикции
пайп: cut -f5 TypeII_REs.tsv | sort -u > rsite.txt
и потом убираем то, что точно не может быть сайтом (техническое уведомление, имя колонки и одиночный нуклеотид (между чем и чем резать тогда?))


2. Оценка представленности сайтов в геноме бактерии Desulfarculus baarsii DSM 2075
Представленность сайтов в геноме помогает оценить программа cbcalc (считает недопредставленность методом Карлина et al). Выдача записывается в файл с расширением .tsv:
cbcalc -s rsite.txt -o value.tsv -K desulfarculus_genome.fasta
выдача
я сортировала значение O/E ratio (BCK) в excel. недопредставленными сайтами считались последовательности с BCK<0,8. таких каходок оказалось 23
между BCK 0,4 и 0,5 был скачок примерно 0,1, и если взять порог 0,5, то получим меньше последовательностей (их из генома вытесняют сильнее всего, так что это наиболее вероятные сайты). так, я решила работать с находками с BCK<0,5 - их нашлось 6 штук
скачать список

3. Отбор экспериментально проверенных эндонуклеаз рестрикции, известная специфичность которых соответствует перечисленным сайтам (с BCK<0,5)
взяла эксель, скопировала туда табличку с эндонуклеазами из файла TypeII_REs.tsv, отсортировала по значению no в Putative (есть экспериментальные свидетельства существования рестриктазы) и запускала поиск по документу (искала по тем 6-ти недопредставленным сайтам).
так, у Desulfarculus baarsii DSM 2075 могут встретиться следующие рестриктазы либо их гомологи, режущие по этим сайтам:
CAGCTG: NsoJS138I, SbaI
CTAG: MjaI, MthZI, NheI, SpeI
GTTTAAAC: PmeI
CTCGAG: PaeR7I, R1.BsuMI, R2.BsuMI, R3.BsuMI, TliI, XhoI
CTGCAG: SbfI, SdaI, XorKII, XphI, XveI