Сигналы и мотивы - 3

1. Недопредставленность сайтов рестрикции в геноме бактерии

Для этого задания была выбрана бактерия Gloeomargarita lithophora D10, имеющая в общей сложности 33 гена системы рестрикции-модификации II. Рассматриваемый организм - цианобактерия, которая является предполагаемой сестрой эндосимбиотических пластид растений [1].

Для изучения представленности сайтов рестрикции у данной бактерии в первую очередь был скачан полный геном Gloeomargarita lithophora D10. Далее из предоставленного файла был получен список сайтов узнавания с длиной более 2 нуклеотидов.

Затем файл с полученными последовательностями и файл с геномом были поданы на вход программе CBCalc. Программа для выполнения выглядела следующим образом:
        
cbcalc -K -s sites.txt -o output.tsv genome.fasta
        
На выходе был получен файл, содержащий информацию о представленности сайтов в геноме. Для того, чтобы отобрать недопредставленные сайты, мною был выбран рекомендованный порог для O/E ratio, равный 0.8. После фильтрации получился следующий файл с последовательностями (всего 91).

Наконец, мною были получены названия эксперементально проверенных эндонуклеаз, сайты которых недопредставлены в геноме Gloeomargarita lithophora . Результат доступен по ссылке. Таких оказалось 223.

Сайты, распознаваемые рестриктазами рассматриваемой бактерии, оказались недопредставлены в геноме, что логично, так как чем меньше сайт встречается в геноме, тем меньше шанс случайного гидролиза ДНК.

Все вышеописанные манипуляции были осуществлены с помощью питона.
Name Predicted
Rec Seq
Сайт избегается?
M.GliD10ORF102P AATATT Да
M.GliD10ORF1040P CGCG Да
GliD10ORF733P, M.GliD10ORF733P GATATC Да
M.GliD10ORF1139P, M.GliD10ORF1599P GATC Да
M.GliD10ORF837P GCCGGC Да
M.GliD10ORF218P GCWGC Да
GliD10ORF2350P, M.GliD10ORF2350P GGNCC Да
M.GliD10ORF1268P GGWCC Да
GliD10ORF927P, M.GliD10ORF1721P, GliD10ORF1721P GTMKAC Да
M.GliD10ORF1846P, GliD10ORF1846P, M.GliD10ORF1521P RGATCY Да
Таблица 1. Ферменты системы рестрикции-модификации II рассматриваемой бактерии с известными сайтами.

2. PSI-BLAST

Случайным образом мною был выбран белок с идентификатором B2V8C0. Он принадлежит экстремофильной бактерии Sulfurihydrogenibium sp. (strain YO3AOP1) и ингибирует деление клеток, блокируя образование полярных Z-колец.

AC был подан на вход PSI-BLAST с поиском по банку Swiss-Prot и остальными парметрами по умолчанию. Первая итерация, по сути являющаяся обычным BLASTом, не показала разницы между E-value худшей находки выше порога и лучшей находки ниже порога, что ожидаемо. Далее уже на второй итерации сильно возросла разница между e-value (на нескольько порядков), а на третьей результат стабилизировался, и находки выше порога не менялись. На основании всего этого можно сделать вывод о том, что полученные находки, вероятно, составляют семейство гомологичных белков.

Краткая информация об итерациях представлена в таблице ниже.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 180 Q88M41.2 0.004 Q4US07.1 0.006
2 188 Q9ZM51.1 6,00E-07 A7H8E6.1 0.037
3 188 Q9ZM51.1 2,00E-11 A7H8E6.1 0.024