Краткое описание, как я выполняла задание:
1. Для выполнения задания я выбрала белок с идентификатором - Q7VDL2. Этот белок является ингибитором клеточного деления, блокирующим образование полярных Z-кольцевых перегородок. Он обнаружен у Prochlorococcus marinus - морских цианобактерий.
2. На странице белкового BLAST в NCBI, внесла выбранный AC, выбирала PSI-BLAST и поиск по банку Swiss-Prot.
3. Далее я делала итерации, занося результаты в таблицу
Начиная с третьей итерации, результат выдачи PSI-BLAST стабилизируется (список предположительных гомологов моего белка - с порогом e-value меньше 0,005 не изменяется по сравнению с предыдущей итерацией)
Разница между худщей находкой выше порога и лучшей находкой ниже порога составляет 10 порядков. Разница существенная, можно предположиь, что находки составляют семейство гомологичных белков.
Эндонуклеазы рестрикции — группа ферментов, катализирующих реакцию гидролиза нуклеиновых кислот. Каждая рестриктаза узнаёт определённый участок ДНК длиной от четырёх пар нуклеотидов и расщепляет нуклеотидную цепь внутри участка узнавания или вне его. Данный фермент существует в клетках бактерии для узнавания и расщепления чужередной ДНК. Защита бактериального генома от собственной рестриктазы осуществляется с помощью метилирования нуклеотидных остатков аденина и цитозина. Однако, эндонуклезы рестрикции иногда все-таки гидролизуют клеточную ДНК, например, из-за ошибок при метилировании сайтов. Поэтому даже в клеточной ДНК существует отбор против сайтов узнавания эндонуклеаз рестрикции, ведь чем меньше сайтов в ДНК, тем меньше шанс её случайного гидролиза.
Таким образом, можно попытаться предсказать специфичность эндонуклеаз рестрикции бактерии по списку возможных сайтов узнавания, которые избегаются (т.е. недопредставлены) в её геноме.
1) Чтобы получить список потенциальных сайтов рестрикции эндонукдеаз типа 2, я воспользовалась предложенным файлом, из которого командой cut -f 5 TypeII_REs.tsv > Recognition_site.txt вырезала последовательности сайтов рестрикции. Многие последовательности повторялись несколько раз. Я отсортировала их таким образом, чтобы каждая последовательность встречалась ровно один раз командой sort -u Recognition_site.txt > sorted_rs.txt. В результате, количество последовательностей сократилось в 12 раз до 210.
2) Мною был скачан полный геном бактерии Prochlorococcus marinus с сайта NCBI. Далее я воспользовалась методом оценки представленности слов в геноме, реализванный командой для вызова – cbcalc на кодомо. Команда: cbcalc --burge -s sorted_rs.txt -o cbalc.tsv -m 1 full_gen.fasta
Результат работы программы – tsv файл. Колонка с контрастом сайта по методу Карлина и соавторов называется "O/E ratio (BCK)". В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов.
Для работы с полученными данными я использовала Excel. Я отсортировала сайты по их представленности. В качестве порога мне поазалось разумным взять значение 0.9, иначе у меня не получалось найти сайты для экспериментально проверенных эндонуклеаз рестрикции. С таким порогом наиболее недопредставленных сайтов оказалось 6.
Отобранные сайты (с порогом ниже 0.9)
На последнем шаге я нашла эндонуклеазы рестрикции, узнающие отобранные последовательности. Среди экспериментально отобранных нуклеаз такиз оказалось 8. Предположительно, именно они встречаются в организме моей бактерии.
Данный результат был получен в Excel при помощи сортировки данных.