Практикум 8. Сигналы и мотивы.

PSI-BLAST

Для выполнения этого практикума случайным образом была выбрана алкогольдегидрогеназа (P39450.1) - белок, катализирующий окисление спиртов и ацеталей до альдегидов и кетонов в присутствии НАД. Самый активный синтез этого белка происходит в печени и почках, хотя фермент также обнаруживается и в мышечной ткани. Алкогольдегидрогеназа принадлежит к оксиредуктазам (конкретнее - семейство цинксодержащих алкогольдегидрогеназ, подкласс III) - насколько я поняла, эти белки должны быть более-менее консервативны.

Я делала два запуска PSI-blast: в одном рассматривала не более 500, во втором - не более 2000 последовательностей. В первом случае стабилизация произошла к 4-5 итерации, во втором - к 7, при условии, что я достаточно сильно занижала порог e-value. В случае с "не более 500" все белки по крайней мере оказались оксиредуктазами. В прицнипе, это подтверждает гипотезу о достаточной консервативности белков этого семейства (хотя, например, тот же предполагаемый белок, определяющий septum-site, который был в списке, намного более консервативен, вероятно, ввиду большей биологической значимости; насколько я знаю, существуют народы Крайнего Севера, у которых синтез той же алкогольдегидрогеназы не происходит вообще - например, Эвенки).

Excel-файл с результатами PSI-blast можно скачать по ссылке.

Эндонуклеазы рестрикции

Эндонуклеазы рестрикции (ЭР) - это очень распространенная группа ферментов, выполняющих множество очень важных функций в эу- и прокариотических клетках. Они являются основным компанентами различных систем репарации (мисматр, гомологичная рекомбинация, BER, NER и другие), а также защитных систем клетки, как например бактериальная система рестрикции-модификации. Эндонуклеазы рестрикции (в том числе II типа, о которых пойдет речь ниже) узнают короткую, часто палиндромную последовательность и вносят одно- или двуцепочечный разрыв внутри или на некотором расстоянии от сайта узнавания. Одним из самых распространенных сигналов, защищающих ДНК от внесения разрыва - метилирование конкретных нуклеотидов в специальных сайтах соответсвующей метилтрансферазой (например, DAM метилирует аденины в последовательности 5'-GATC-3').

В том числе по указанным выше причинам клетке выгодно иметь поменьше последовательностей, совпадающих с сайтами рестрикции (на примере той же рестрикции-модификации - эндонуклеаза будет стараться разрезать всю незащищенную ДНК, которую увидит и распознает как потенциально вирусную, а иногда и метилтрансферазы ошибаются). Таким образом, эндонуклеазы рестрикции в геноме можно найти с помощью оценки представленности сайтов рестрикции. Это может понадобиться, например, в том случае, когда нам не известна аминокислотная последовательность ЭР, но известен ее сайт узнавания. Или если нам очень не хочется запускать бласт с тысячами эндонуклеаз, потому что это действительно долго и часто не обязательно - потом с его помощью можно будет проверить наличие 20-30 находок.

Для выполнения основного практикума мне была дана бактерия Acidithiobacillus ferrooxidans ATCC 23270. В первую очередь я вырезала все сайты рестрикции из данного tsv-файла с помощью следующей команды bash:


cut -f5 TypeII_REs.tsv|sort -u > site_lst.txt 

Далее был сделан запуск программы для анализа встречаемости последовательностей:


cbcalc -s site_lst.txt -o restrict.tsv -K FERO.fna

Далее была сделана сортировка результатов с помощью следуюшей команды:


sort -k5,5g restrict.tsv > sorted_results.tsv

Учитывая качество полученных результатов, я решила взять порог 0.8 - с таким ограничением остается достаточное число результатов, которые с меньшей вероятностью будут объяснены особенностями GC-состава или работой других белковых систем.

С помощью скрипта я получила файл со всеми рестриктазами, гидролизирующими по полученным мной сайтам. Таких сайтов было 14, но не все они оказись представленны в экспериментально полученных рестриктазах. В том же скрипте я отфильтровывала putative белки, результатом стало 34 наименования. Ради интереса я отсортировала их с помощью команды:


sort -ik2,2 out.txt > sorted_out.txt

(отсортированый файл), а затем с помощью аналогичной команды удалила дубликаты по сайту. Оказалось, что только 8 сайтов оказались представлены у не-putative рестриктаз. Получается, большая часть находок - изошизомеры. Предполагаю, что с после запуска этих 34 ЭР в BLAST достоверно найдутся 10-12 белков-гомологов.