Учебная страница курса биоинформатики,
год поступления 2020
Подготовьтесь к тесту на знание молекулярных сигналов, который состоится 8 апреля
- Прочитайте презентацию signals-unsaid.pptx (отредактирую в выходные)
1. Проверьте недопредставленность сайтов рестрикции в геноме бактерии или археи
Сайт рестрикции - последовательность или мотив, определенный паттерном, с которым связывается эндонуклеаза рестрикции и вносит двухцепочечный разрыв в ДНК (бывают никазы, они вносят одноцепочечный разрыв)
Введение Эндонуклеазы рестрикции обладают очень высокой специфичностью к последовательности ДНК, зачастую они узнают одну определенную короткую последовательность. Поэтому для описания соответствующего сигнала не нужно составлять ПВМ, достаточно просто указать последовательность сайта узнавания. Метилирование сайтов узнавания в хозяйской ДНК защищает их от воздействия соответствующей эндонуклеазы. Однако, эндонуклезы рестрикции иногда все-таки гидролизуют клеточную ДНК, например, из-за ошибок при метилировании сайтов. Поэтому даже в клеточной ДНК существует отбор против сайтов узнавания эндонуклеаз рестрикции, ведь чем меньше сайтов в ДНК, тем меньше шанс её случайного гидролиза. Литература про избегание сайтов рестрикции [ у бактерий и архей ] [ у бактериофагов и вирусов архей ]
Выбор бактерии - в БД REBASE, страница Genomes. Для каждого генома указаны закодированные в нем системы рестрикции-модификации. Выберите такой геном, в котором есть системы Р-М типа II с известным сайтом рестрикции.
Скачайте геном бактерии и найдите в нем (i) представленность сайтов найденных вами сайтов рестрикции в геноме;(ii) всех недопредставленных сайтов рестрикции систем Р-М типа II, их список найдете в таблице
Проверьте, закодированы ли в геноме эндонуклеазы рестрикции узнающие найденные недопредставленные сайты рестрикции. Поможет поиск по recognition sequence в таблице или в REBASE, и BLAST. Последовательности всех эндонуклеаз рестрикции найдете здесь
- В отчете опишите результат и приведите обсуждение
Идея: можно попытаться предсказать специфичность эндонуклеаз рестрикции бактерии по списку возможных сайтов узнавания, которые избегаются (т.е. недопредставлены) в её геноме. Для этого достаточно иметь последовательность генома бактерии (даже не обязательно полную) и знать список сайтов, которые потенциально могут быть сайтами узнавания эндонуклеаз рестрикции.
Этапы работы:
- получить список коротких последовательностей (сайтов), которые являются потенциальными сайтами рестрикции;
- оценить представленность этих сайтов в геноме своей бактерии/археи, выбрать наиболее недопредставленные сайты;
- получить список экспериментально проверенных эндонуклеаз рестрикции, известная специфичность которых соответствует этим недопредставленным сайтам;
- (*) получить последовательности этих эндонуклеаз и запустить поиск потенциальных гомологов в геноме вашей бактерии/археи.
Технические рекомендации по выполнению пунктов здесь.
Результат выполения – страничка на сайте. Из текста должно быть понятно, что и для чего Вы делали, не только преподавателям, но и более менее постороннему человеку. Обязательно надо указать, как выполняли каждый из этапов. Копировать текст задания и подсказок запрещается. Технически, это плагиат. Формулируйте все своими словами.
Пункт 4 оценивается, только если выполнен качественно. Недостаточно запустить бласт и дать ссылку на файл с находками. В идеале, можно даже зайти на сайт REBASE, поискать информацию о системах Р-М вашей бактерии/археи или системах ближайших родственников и сравнить с вашими результатами.
2. PSI-BLAST
Автор С.А.С.
Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST
Выберите случайный идентификатор (AC) из списка.
- Зайдите на страницу белкового BLAST в NCBI, внесите выбранный AC в окошко, выберите PSI-BLAST и поиск по банку Swiss-Prot.
После каждой итерации заполняйте строку таблицы.
- Желательный результат: стабилизация результата очередной итерации, т.е. список находок выше порога не поменялся по сравнению с предыдущей итерацией. Если не удалось стабилизировать результат, то выполните не менее пяти итераций.
- Качество результата также определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков.
- При необходимости можно изменить порог E-value отсечения хороших находок (E=0.005 по умолчанию).
В отчёте приведите: выбранное AC, что это за белок (организм, функция), таблицу итераций, комментарии (сошлось/не сошлось, если нет, то почему, если да, то хорошее ли семейство и т.п.)