Сигналы и мотивы 3

Задание 1: Поиск гомологов белка при помощи PSI-BLAST

Краткое описание, как я выполняла задание:

1. Для выполнения задания я выбрала белок с идентификатором - Q7VDL2. Этот белок является ингибитором клеточного деления, блокирующим образование полярных Z-кольцевых перегородок. Он обнаружен у Prochlorococcus marinus - морских цианобактерий.

Картиночка

2. На странице белкового BLAST в NCBI, внесла выбранный AC, выбирала PSI-BLAST и поиск по банку Swiss-Prot.

3. Далее я делала итерации, занося результаты в таблицу

Результаты:

Начиная с третьей итерации, результат выдачи PSI-BLAST стабилизируется (список предположительных гомологов моего белка - с порогом e-value меньше 0,005 не изменяется по сравнению с предыдущей итерацией)

Разница между худщей находкой выше порога и лучшей находкой ниже порога составляет 10 порядков. Разница существенная, можно предположиь, что находки составляют семейство гомологичных белков.

2. Предсказание специфичности некоторых эндонуклеаз рестрикции в геноме бактерии Prochlorococcus marinus

Эндонуклеазы рестрикции — группа ферментов, катализирующих реакцию гидролиза нуклеиновых кислот. Каждая рестриктаза узнаёт определённый участок ДНК длиной от четырёх пар нуклеотидов и расщепляет нуклеотидную цепь внутри участка узнавания или вне его. Данный фермент существует в клетках бактерии для узнавания и расщепления чужередной ДНК. Защита бактериального генома от собственной рестриктазы осуществляется с помощью метилирования нуклеотидных остатков аденина и цитозина. Однако, эндонуклезы рестрикции иногда все-таки гидролизуют клеточную ДНК, например, из-за ошибок при метилировании сайтов. Поэтому даже в клеточной ДНК существует отбор против сайтов узнавания эндонуклеаз рестрикции, ведь чем меньше сайтов в ДНК, тем меньше шанс её случайного гидролиза.

Таким образом, можно попытаться предсказать специфичность эндонуклеаз рестрикции бактерии по списку возможных сайтов узнавания, которые избегаются (т.е. недопредставлены) в её геноме.

Ход работы:

1) Чтобы получить список потенциальных сайтов рестрикции эндонукдеаз типа 2, я воспользовалась предложенным файлом, из которого командой cut -f 5 TypeII_REs.tsv > Recognition_site.txt вырезала последовательности сайтов рестрикции. Многие последовательности повторялись несколько раз. Я отсортировала их таким образом, чтобы каждая последовательность встречалась ровно один раз командой sort -u Recognition_site.txt > sorted_rs.txt. В результате, количество последовательностей сократилось в 12 раз до 210.

2) Мною был скачан полный геном бактерии Prochlorococcus marinus с сайта NCBI. Далее я воспользовалась методом оценки представленности слов в геноме, реализванный командой для вызова – cbcalc на кодомо. Команда: cbcalc --burge -s sorted_rs.txt -o cbalc.tsv -m 1 full_gen.fasta

Результат работы программы – tsv файл. Колонка с контрастом сайта по методу Карлина и соавторов называется "O/E ratio (BCK)". В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов.

Для работы с полученными данными я использовала Excel. Я отсортировала сайты по их представленности. В качестве порога мне поазалось разумным взять значение 0.9, иначе у меня не получалось найти сайты для экспериментально проверенных эндонуклеаз рестрикции. С таким порогом наиболее недопредставленных сайтов оказалось 6.

Вывод программы cbcalc

Отобранные сайты (с порогом ниже 0.9)

На последнем шаге я нашла эндонуклеазы рестрикции, узнающие отобранные последовательности. Среди экспериментально отобранных нуклеаз такиз оказалось 8. Предположительно, именно они встречаются в организме моей бактерии.

Эндонуклеазы

Данный результат был получен в Excel при помощи сортировки данных.