PSI-BLAST
Я выбрала белок с идентификатором Q7VDL2 из организма Prochlorococcus marinus subsp. marinus str. CCMP1375.
Про него известно, что он выполняет функцию ингибитора
клеточного деления, блокирующего образование полярных Z-кольцевых перегородок.
Он быстро колеблется между полюсами клетки, чтобы дестабилизировать нити FtsZ,
которые сформировались до того, как они созрели в полярные Z-кольца.Белок предотвращает полимеризацию FtsZ.
Я изучала работу PSI-BLAST, удаляя после каждой выдачи некоторые худшие находки и добавляя лучшие находки ниже порога. Был задан порог по умолчанию.
Результа стабилизировался практически сразу, количество изменилось на один к 4 итерации. При увеличении находок на один
белок разность E-value уменьшилосьь, но после следующей итерации вновь увеличилось.
Качество результата определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной:
чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков. Вероятность большая, что в моей выдаче представлены
гомологичные белки, так как разность E-value значительна.
Матрица.
2. Эндонуклеазы рестрикции.
Предположение специфичности эндонуклеаз рестрикции бактерии Oligotropha carboxidovorans OM5
по набору возможных недопредставленных сайтов узнавания в геноме.
1. С помощью команд "cut -f5 /P/y18/term4/pr8/TypeII_REs.tsv > ~/public_html/term4/pr8.3.txt" и "sort --unique ~/public_html/term4/pr8.3.txt > ~/public_html/term4/pr8.31.txt"
я вырезала пятый столбец из файла TypeII_REs.tsv, в котором содержится собранная информация о системах рестрикции-модификации.
Данный столбец содержит список потенциальных сайтов рестрикции. После сортировки и удаления коротких последовательностей(1-2 н.),
в нем остались только оригинальные сайты.Также удалим Recognition site.
2. На сайте NCBI я получила полный геном своей бактерии Oligotropha carboxidovorans OM5. Последовательность
была загружена в файл sequence.fasta. C помощью команды:
"cbcalc --burge -s ~/public_html/term4/pr8.31.txt -o ~/public_html/term4/pr8.tsv ~/public_html/term4/sequence.fasta" я
получила файл pr8.tsv, где содержится нужная колонка с контрастом сайта по методу Карлина и соавторов:
"O/E ratio (BCK)".
Именно по ней необходимо было определять недопредставленность сайтов. Выбранный мною порог 0.8 был задан в практикуме
как рекомендованный. Для этого я воспользовалась электронными таблицами и сортировкой. Всего получилось 16 сайтов со значением
ниже 0.8.
3. На заключительном этапе нужно было отобрать из заданного файла с системами рестикции-модификации те эндонуклеазы, в столбце которых
указано значени "no"(столбец putative). При этом отобранные эндонуклеазы
должны узнавать сайт из набора недопредставленных сайтов(ниже порога 0.8).Чтобы найти такие, я воспользовалассь электронной таблицей
и комбинацией фильтров. Сначала были отобраны только те, которые содержат значение "no". Затем в них я отыскала взятые ранее сайты.Всего
получилось 34 эндонуклеазы. В самом конце я отсортировала их по алфавиту. Все файлы с промежуточными и конечным результатами представлены внизу.
Таблицы с сайтами и эндонуклеазами
Потенциальные сайты рестрикции