PSI-BLAST

Я выбрала белок с идентификатором Q7VDL2 из организма Prochlorococcus marinus subsp. marinus str. CCMP1375. Про него известно, что он выполняет функцию ингибитора клеточного деления, блокирующего образование полярных Z-кольцевых перегородок. Он быстро колеблется между полюсами клетки, чтобы дестабилизировать нити FtsZ, которые сформировались до того, как они созрели в полярные Z-кольца.Белок предотвращает полимеризацию FtsZ.

Я изучала работу PSI-BLAST, удаляя после каждой выдачи некоторые худшие находки и добавляя лучшие находки ниже порога. Был задан порог по умолчанию. Результа стабилизировался практически сразу, количество изменилось на один к 4 итерации. При увеличении находок на один белок разность E-value уменьшилосьь, но после следующей итерации вновь увеличилось.

Качество результата определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков. Вероятность большая, что в моей выдаче представлены гомологичные белки, так как разность E-value значительна.

Матрица.

2. Эндонуклеазы рестрикции.

Предположение специфичности эндонуклеаз рестрикции бактерии Oligotropha carboxidovorans OM5 по набору возможных недопредставленных сайтов узнавания в геноме.

1. С помощью команд "cut -f5 /P/y18/term4/pr8/TypeII_REs.tsv > ~/public_html/term4/pr8.3.txt" и "sort --unique ~/public_html/term4/pr8.3.txt > ~/public_html/term4/pr8.31.txt" я вырезала пятый столбец из файла TypeII_REs.tsv, в котором содержится собранная информация о системах рестрикции-модификации. Данный столбец содержит список потенциальных сайтов рестрикции. После сортировки и удаления коротких последовательностей(1-2 н.), в нем остались только оригинальные сайты.Также удалим Recognition site.

2. На сайте NCBI я получила полный геном своей бактерии Oligotropha carboxidovorans OM5. Последовательность была загружена в файл sequence.fasta. C помощью команды: "cbcalc --burge -s ~/public_html/term4/pr8.31.txt -o ~/public_html/term4/pr8.tsv ~/public_html/term4/sequence.fasta" я получила файл pr8.tsv, где содержится нужная колонка с контрастом сайта по методу Карлина и соавторов:
"O/E ratio (BCK)".
Именно по ней необходимо было определять недопредставленность сайтов. Выбранный мною порог 0.8 был задан в практикуме как рекомендованный. Для этого я воспользовалась электронными таблицами и сортировкой. Всего получилось 16 сайтов со значением ниже 0.8.

3. На заключительном этапе нужно было отобрать из заданного файла с системами рестикции-модификации те эндонуклеазы, в столбце которых указано значени "no"(столбец putative). При этом отобранные эндонуклеазы должны узнавать сайт из набора недопредставленных сайтов(ниже порога 0.8).Чтобы найти такие, я воспользовалассь электронной таблицей и комбинацией фильтров. Сначала были отобраны только те, которые содержат значение "no". Затем в них я отыскала взятые ранее сайты.Всего получилось 34 эндонуклеазы. В самом конце я отсортировала их по алфавиту. Все файлы с промежуточными и конечным результатами представлены внизу.

Таблицы с сайтами и эндонуклеазами
Потенциальные сайты рестрикции