Рестриктазы

По базе REBASE была найдена бактерия Synechococcus species PCC 73109. У данной бактерии только два участка R II, для которых был предсказан сайт рестрикции GGWCC.

После загрузки таблицы с данными по всем рестриктазам второго типа, были отобраны такие сайты рестрикции, длина которых больше двух.

Далее была получена оценка представленности сайтов в геноме при помощи команды:

cbcalc genome.fasta -s sites.txt -o out.tsv

Далее были отобраны только те сайты, оценка представленности которых была меньше 0.8. Всего было обнаружено 44 недопредставленных сайта, среди которых есть искомый сайт GGWCC c низким значением представленности 0.174 (22 индекс).

После этого был произведен поиск в геноме гомологов рестриктаз, которые работают по недопредставленным сайтам, при помощи blast. Сначала были получены индефикаторы всех рестриктаз, по которым далее были получены последовательности (n=14674) с нужными именами из файла с последовательностями всех рестриктаз.

Была создана база данных на основе генома бактерии, по которой при помощи алгоритма tblast был произведен поиск гомологов последовательностей отобранных рестриктаз. Выдача. Всего в выдаче около 300 000 строк. Для большинства рестриктаз не нашлось гомологов в геноме, однако для некоторых, всё-таки, нашлись, к примеру для MspMK1ORFGP.

makeblastdb -in genome.fasta -dbtype nucl
tblastn -query records.fasta -db genome.fasta -evalue 0.0001 -out blast.txt

PSI-BLAST

Идентификатор белка: P05813

После 3й итерации результат сошёлся и на 4й и 5й итерациях не изменился. Это свидетельствует о высоком родстве белка к кристалинам.

Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 102 P46058.1 3E-12 - -
2 104 P02966.1 3E-04 - -
3 105 P19865.1 5E-08 - -
4 105 P19865.1 4E-08 - -
5 105 P19865.1 4E-08 - -