Проверка недопредставленности сайтов рестрикции в геноме бактерии или археи

На сайте REBASE была выбрана бактерия, у которой есть система рестрикции-модификации второго типа с известными сайтами рестрикции, Microcystis aeruginosa NIES-843. Она отнсоится к цианобактериям.
Выбор основывался на большом количестве генов (в т.ч. генов, на которых происходит рестрикция). На этом же сайте (в поле "Gene" должна стоять буква "R") обозначены паттерны сайтов узнавания (см. табл. 1), которые есть и в tsv-таблице.

Таблица 1. Сайты рестрикции.
Паттерн Ферменты
TGCGCA Mae843ORF750BP, Mae843ORF750AP
RCATGY Mae843ORF4470P
GAATTC Mae843ORF8670P
CMGCKG Mae843ORF14980P
GATC Mae843ORF18940P
GGWCC Mae843ORF28780P
ACRYGT Mae843ORF30120P
GCTAGC Mae843ORF34630AP, Mae843ORF34630BP, Mae843ORF34630CP
GATATC Mae843ORF51360P
CYCGRG Mae843ORF52720P
ATGCAT Mae843ORF58710P
TTCGAA Mae843ORF60330AP, Mae843ORF60330BP
rm_sites
Рис.1. Схема расположения всех сайтов различных систем рестрикции-модификации Microcystis aeruginosa NIES-843

Скачав геном нашей бактерии, изучим представленность и недопредставленность сайтов рестрикции.

  1. Отдадим на вход программе cbcalc файлы с известными сайтами рестрикции и геном нашей бактерии, чтобы изучить представленность сайтов, получим файл. В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов, "O/E ratio (BCK)" - контраст сайта.
  2. cbcalc -s TypeII_REs.tsv -o cbcalc_RM.tsv genome.fasta --burge
  3. Для поиска недопредставленных сайтов выставим порог на контраст, равный 0.8, и найдём сайты с O/E ratio ниже заданного значения, используя методы электронных таблиц (сортировка по возрастанию): ссылка.
  4. Затем выбираем только те эндонуклеазы, в поле "Predicted" у которых стоит "no":
  5. cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> endonucl_no.txt
  6. Ищем эндонуклеазы, которые узнают недопредставленные сайты в нашем геноме с помощью Excel (удаляем дубликаты в листе с недопредставленными сайтами и производим поиск в полученном файле endonucl_no.txt), получаем файл.

Psi-Blast

Из списка AC выбрали следующий идентификатор: P39450. Этот белок - S-(гидроксиметил)глутатион дегидрогеназа, или алкогольдегидрогеназа класса III (EC:1.1.1.284), который относится к классу оксидоредуктаз. Нашли у Photobacterium damsela subsp. piscicida. Фермент участвует в катализе реакции: НАДФ+ + S-(гидроксиметил)глутатион = H+ + НАДФH + S-формилглутатион.

Далее запускаем Psi-Blast на NCBI: заходим в белковый Blast, выбираем Psi-Blast (Position-Specific Iterated BLAST), поиск по банку swiss-prot, выставляем параметры по умолчанию. После каждой итерации заполняем таблицу. Для стабилизации количества находок и разницы E-value между худшей "правильной" находкой и "лучшей" неправильной проводим пять итераций, получаем табл.2.

Таблица 2. Psi-Blast.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 369 P0CH36.1 0.003 P0A4X1.1 0.006
2 500 Q86ZD9.1 2e-17 нет находок -
3 500 A0A3G1DJH7.1 3e-34 нет находок -
4 500 Q8N4Q0.1 2e-37 нет находок -
5 500 Q8J0F5.1 3e-39 нет находок -

Видно, что после второй итерации количество находок стаблилизировалось, а E-value с каждым разом становится всё меньше. Следовательно, данное семейство белков высококонсервативно, как и следовало ожидать, судя по данным из Википедии.