В базе данных REBASE была выбрана Bacillus aquiflavi strain:3H-10
Геном бактерии был найден в базе NCBI. Чтобы оценить наличие сайтов рестрикции геноме, была использована таблица и команда cbcalc.
cbcalc -s TypeII_REs.tsv -o output.tsv sequence.fasta
После сортировки и фильтрации был получен следующий файл.
sort -k5,5g output.tsv > sort.tsv
awk '$5 + 0 <= 0.8' sort.tsv > answer.tsv
Далее с помощью python скрипта из таблицы были выбраны рестриктазы, которые могут узнавать недопредставленные сайты рестрикции в геноме выбранной бактерии.
Итог: список рестриктаз .
Для работы был выбран белок Probable septum site-determining protein MinC (Q7VDL2) из бактерии Prochlorococcus marinus
На клетках E. coli было показано , что увеличение количества исследуемого белка minC приводит к прекращению (рис 2.2 В) образования Z колец - особых структур, необохдимых для успешной споруляции бактерий (рис 2.1).
Для составления семейства гомологов в PSI-BLAST была загружена последовательность выбранного белка, порог E-value не менялся (по умолчанию E=0.005), а поиск осуществлялся по банку Swiss-Prot. На первой итерации запускался обычный BLASTP входной последовательности против выбранного банка последовательностей. Поэтому резутаты начальной итерации (см таблица 1) сильно отличаются от желаемых: E-value худшей находки, удовлетворяющей заданному порогу, не отличается от E-value лучшей находки, не прошедшей порог. На второй итерациии строится множественное выравнивание для всех 146 отобранных находок и для этого выравнивания составляется PSSM матрица. Потом снова происходит запуск BLAST для исследуемой последовательности против того же банка (Swiss-Prot), но вместо матрицы замен остатков используется PSSM, полученная на предыдущем шаге. Видно, что после второй итерации (см таблица 1) число находок стало значительно больше (увеличилось на 42), а находок, не прошедших порог не осталось совсем. Далее на основе полученных 188 находок опять строится множественное выравнивание, составляется PSSM матрица, запуск BLAST. На 3 итерации число находок не изменяется, но появляются последовательности, не прошедшие порог. Из них лучшая (A7H8E6.1) имеет E-value (0.014), которое довольно сильно отличается от отобранной находки с худшим E-value (2е-12). Эта разница в значениях E-value свидетельсвует о хорошем результате. Но поскольку основная идея алгоритма PSI-BLAST - повторение шагов "строим множественное выравнивание, составляем PSSM матрица, запускем BLAST", пока не перестанут добавляться новые последовательности, необходимо сделать еще несколько итераций, чтобы убедиться, что количество наших находок не увеличивается. И это повторение оправдано - после 4 итерации добавляется еще одна последовательность. Далее (на 5, 6, 7 итерациях) количество находок не меняется, разница в E-value худшей отобранной и лучшей отброшенной остается значительной. Следовательно, можно сделать вывод о том, что семейство гомологов построено качественно.
Таблица 1. Результаты 6 итераций PSI-BLAST
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 7,00E-08 | нет | нет |
3 | 188 | Q9ZM51.1 | 2,00E-12 | A7H8E6.1 | 0.014 |
4 | 189 | A8MHK8.1 | 0.001 | A7H8E6.1 | 0.013 |
5 | 189 | A8MHK8.1 | 4,00E-10 | A7H8E6.1 | 0.009 |
6 | 189 | A8MHK8.1 | 3,00E-09 | A7H8E6.1 | 0.014 |
7 | 189 | A8MHK8.1 | 5,00E-09 | A7H8E6.1 | 0.015 |