Для получения недопредставленных сайтов Р-М Ⅱ типа в геноме нашей бактерии на kodomo была использована следующая команда: cbcalc -s TypeII_REs.tsv -o out.tsv Leifsonia.fasta. Выдачу можно найти тут. Из полученной таблицы с помощью Excel были отобраны те записи, чьи контрасты не превосходят 0,8 (значение в колонке "O/E ratio (BCK)" меньше 0,8). Полученная таблица находится тут.
Далее из таблицы с информацией о всех ферментах Р-М Ⅱ типа найдем те, которые были эксперементально проверены. То есть содержат "no" в столбце "Predicted". Сделаем это с помощью команды cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> not_predicted.txt. Результат выполнения команды находится тут. Теперь среди этих эндонуклеаз нужно отобрать те, что узнают сайты из нашего набора недопредставленных сайтов. Сделает это с помощью скрипта на питоне. Результирующий файл находится тут.
Цель данной части задания - для выбранной последовательности белка составить семейство гомологов, пользуясь PSI-BLAST. Сначала я выбрала белок - фактор стимулирования гибернации рибосомы (Ribosome hibernation promotion factor) с AC O05886 из предложенного списка.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 20 | P17161.1 | 0.003 | P17160.1 | 0.005 |
2 | 27 | P71346.3 | 1e-11 | - | - |
3 | 28 | P9WMA8.1 | 0.002 | - | - |
После третьей итерации результат стабилизировался. То есть список находок выше порога относительно последней итерации не поменялся. Это может говорить о том, что семейство хорошее. При этом разница между E-value худшей и лучшей находками тоже говорит о хорошем белковом семействе (5e-88 и 8e-20).