Введение

Цель данного практикума - проверить возможноcть предсказания систем рестрикции-модификации, закодированных в геноме, за счёт анализа представленноcти различных последовательностей в геноме и сравнения полученных находок с известными данными из REBASE.

Выбор генома

Для исследования был выбран геном Methanocaldococcus jannaschii (ссылка на REBASE, ссылка на геном).
Данные по рестриктазам второго типа данной археи доступны в файле M_jannaschii.txt.

Получение списка сайтов

Список потенциальных сайтов рестрикции был получен из таблицы.

Отбор недопредставленных сайтов

Для полученных потенциальных сайтов была найдена их представленность в геноме Methanocaldococcus jannaschii при помощи контраста, вычисленного методом С.Карлина и соавторов.
(команда: cbcalc M_jannaschii.fasta --burge -o out.tsv)

Представленность сайтов, для которых для данной археии в REBASE присутствуют рестриктазы, приведена в таблице ниже. Можно видеть, что все они, как и ожидалось, недопредставлены (O/E ratio < 1), но степень несоответствия ожидаемому в значительной степени разнится.

Рассмотрим общий отсортированный по недопредставленности список сайтов.
Сайты с наблюдаемым нулём вхождений имеют при этом достаточно малое ожидаемое число вхождений, следовательно, различие наблюдаемого и ожидаемого не такое уж и большое и далее они учитываться не будут.

Для дальнейшего рассмотрения были отобраны сайты длиной более одного нуклеотида с представленностью менее 0.8 (поскольку это было названо "разумным значением" в задании). Таких сайтов нашлось 24.

Отбор экспериментально проверенных эндонуклеаз

Из эндонуклеаз, распознающих отобранные сайты, были взяты те, активность которых была проверена экспериментально. Список их названий в REBASE (в формате list-файла для seqret) доступен по ссылке, всего 125 белков.

Поиск гомологов отобранных эндонуклеаз

Для поиска гомологов отобранных эндонуклеаз был проведён tblastn с геномом археи в качестве базы и последовательностями рестриктаз к качастве query. Выдача blast доступна в файле

Находок достаточно много, с хорошим e-value и достаточно большим покрытием. Можно видеть, что часто на приблизительно один локус выравнивается множество находок, из которых одна - с покрытием ровно 100% - сооветствует белку Mja согласно REBASE, а остальные имеют покрытие немного меньше, но всё ещё хорошее e-value, распознают ту же специфичную последовательность и, вероятно, просто являются близкими гомологами этого белка.

При этом из отмеченных в REBASE blast не нашёл семь белков:

Шесть из них являются метилазами, а не рестриктазами, соответственно, находились вне области рассмотрения. А вот вместо рестриктазы MjaVIP нашёлся другой белок, распознающий ту же последовательность (CCGG): Hpy299IX. Покрытие всего 85 процентов, то есть это лишь гомолог, а не сам белок. Сам же белок не нашёлся, поскольку не ещё не проходил экспериментальную проверку:

Вывод

Хотя недопредставленны в геноме оказалось довольно много потенциальных сайтов, в геноме закодированы ретриктазы распознающие лишь шесть из них, и данные о них сходятся с данными из REBASE.
Вероятно, столь большое число избегаемых сайтов может свидетельствовать о не очень большой специфичности рестриктаз. Однако для более строгого утверждения стоит учесть, сколько из избегаемых сайтов, для которых не было найдено закодированных в геноме рестриктаз на самом деле содержат внутри себя сайт из закодированной ситемы рестрикции-модификации - просто являясь более длинной или более вырожденной последовательнотью.