Практикум 8.

Сигналы и мотивы

PSI-BLAST

Для этого задания я рандомно выбрала белок с ID Q7VDL2. Оказалось, что этот белок (Probable septum site-determining protein) MinC из Prochlorococcus marinus (strain SARG / CCMP1375 / SS120) является ингибитором клеточного деления, т.к. блокирует образование полярных Z-кольцевых перегородок. Далее с последовательностью было произведено несколько итераций PSI-BLAST.Таблица итераций здесь. После 4-ой итерации результат стабилизировался, т.е. список находок выше порога не поменялся по сравнению с предыдущей итерацией. Кроме того, между находками, прошедшими и непрошедшими порог, была большая разница по p-value. Это с большой вероятностью означает, что находки составляют семейство гомологичных белков.

Эндонуклеазы рестрикции

Для начала, я нашла полный геном давно забытой в первом семестре бактерии Xylella fastidiosa 9a5c и файл со списком сайтов рестрикции. Файл со списком я получила с помощью команды 'cut -f 5 TypeII_REs.tsv | sort -u > recog_sites.txt', где TypeII_REs - файл, лежащий на kodomo, в котором находится обработанная информация об эндонуклеазах рестрикции из базы данных REBASE; опция "-f 5" позволяет вырезать 5 столбец, в котором находились сайты рестрикции, а "sort -u" предотвращает появление повторов. Кроме того, я вручную удалила 1 сайт, длина которого была 1 нуклеотид, 1 неопознанный сайт и заголовок.
Далее, с помощью команды 'cbcalc -s recog_sites.txt -o burge_out.tsv -K Xylella_fastidiosa_9a5c.fasta' я оценила представленность сайтов методом контраста по Карлину (опция -K). Результат нужно было отсортировать, чтобы понять, какие сайты были недопредставлены. Это я сделала, отсортировав файл по возрастанию O/E ratio (т.е. отношение количества встреченных сайтов к числу ожидаемых = контраст) - 5 колонка: 'sort -k5,5g burge_out.tsv > burge_sorted.tsv'; а затем 'head -n 10 burge_sorted.tsv > selected.tsv', чтобы отобрать первые 9 сайтов контрастом меньше 0.8. Результат - файл с отобранными сайтами.
После этого с помощью сортировки таблицы по алфавиту столбца с "yes/no" в Excel были отобраны рестриктазы, для которых было экспериментально показано, что они распознают сайты рестрикции, найденные в бактерии. Я не знала, какого формата должен быть конечный файл, поэтому записала в tsv-файл название и AC sequence отобранных эндонуклеаз рестрикции.
Как вывод, можно сказать, что в результате этого практикума, были определены сайты рестрикции для эндонуклеаз рестрикции, которые могут быть, вероятнее всего, опираясь на порог 0.8, представлены в бактерии Xylella fastidiosa 9a5c.