Недопредставленность сайтов рестрикции в геноме бактерии

В базе данных REBASE была выбрана Bacillus aquiflavi strain:3H-10

Picture 1. Визуализация генома Bacillus aquiflavi strain:3H-10 и генов систем рестрикции.

Геном бактерии был найден в базе NCBI. Чтобы оценить наличие сайтов рестрикции геноме, была использована таблица и команда cbcalc.

cbcalc -s TypeII_REs.tsv -o output.tsv sequence.fasta

После сортировки и фильтрации был получен следующий файл.

sort -k5,5g output.tsv > sort.tsv

awk '$5 + 0 <= 0.8' sort.tsv > answer.tsv

Далее с помощью python скрипта из таблицы были выбраны рестриктазы, которые могут узнавать недопредставленные сайты рестрикции в геноме выбранной бактерии.

Итог: список рестриктаз .

Поиск семейства гомологов белка MinC с помощью PSI-BLAST

Для работы был выбран белок Probable septum site-determining protein MinC (Q7VDL2) из бактерии Prochlorococcus marinus

На клетках E. coli было показано , что увеличение количества исследуемого белка minC приводит к прекращению (рис 2.2 В) образования Z колец - особых структур, необохдимых для успешной споруляции бактерий (рис 2.1).

Picture 2 (2.1 и 2.2) Функция белка MinC

Для составления семейства гомологов в PSI-BLAST была загружена последовательность выбранного белка, порог E-value не менялся (по умолчанию E=0.005), а поиск осуществлялся по банку Swiss-Prot. На первой итерации запускался обычный BLASTP входной последовательности против выбранного банка последовательностей. Поэтому резутаты начальной итерации (см таблица 1) сильно отличаются от желаемых: E-value худшей находки, удовлетворяющей заданному порогу, не отличается от E-value лучшей находки, не прошедшей порог. На второй итерациии строится множественное выравнивание для всех 146 отобранных находок и для этого выравнивания составляется PSSM матрица. Потом снова происходит запуск BLAST для исследуемой последовательности против того же банка (Swiss-Prot), но вместо матрицы замен остатков используется PSSM, полученная на предыдущем шаге. Видно, что после второй итерации (см таблица 1) число находок стало значительно больше (увеличилось на 42), а находок, не прошедших порог не осталось совсем. Далее на основе полученных 188 находок опять строится множественное выравнивание, составляется PSSM матрица, запуск BLAST. На 3 итерации число находок не изменяется, но появляются последовательности, не прошедшие порог. Из них лучшая (A7H8E6.1) имеет E-value (0.014), которое довольно сильно отличается от отобранной находки с худшим E-value (2е-12). Эта разница в значениях E-value свидетельсвует о хорошем результате. Но поскольку основная идея алгоритма PSI-BLAST - повторение шагов "строим множественное выравнивание, составляем PSSM матрица, запускем BLAST", пока не перестанут добавляться новые последовательности, необходимо сделать еще несколько итераций, чтобы убедиться, что количество наших находок не увеличивается. И это повторение оправдано - после 4 итерации добавляется еще одна последовательность. Далее (на 5, 6, 7 итерациях) количество находок не меняется, разница в E-value худшей отобранной и лучшей отброшенной остается значительной. Следовательно, можно сделать вывод о том, что семейство гомологов построено качественно.

Таблица 1. Результаты 6 итераций PSI-BLAST

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 7,00E-08 нет нет
3 188 Q9ZM51.1 2,00E-12 A7H8E6.1 0.014
4 189 A8MHK8.1 0.001 A7H8E6.1 0.013
5 189 A8MHK8.1 4,00E-10 A7H8E6.1 0.009
6 189 A8MHK8.1 3,00E-09 A7H8E6.1 0.014
7 189 A8MHK8.1 5,00E-09 A7H8E6.1 0.015