Сайты рестрикции

Взял Arachidicoccus species BS20

Скачал геном в файл
Чтобы рассмотреть сайты рестрикции была использована команда:
cbcalc -s TypeII_REs.tsv -o out.tsv sequence.fasta
Результат её работы: out.tsv
Отсортируем полученный файл:
sort -k5,5g out.tsv > out_new.tsv
После сортировки: out_new.tsv
Чтобы отобрать наиболее недопредставленные сайты использовал порог контраста 0.8. Отфильтровал с помощью команды:
cut -f 5 TypeII_REs.tsv |paste - TypeII_REs.tsv |grep -E 'no'| cut -f 2-> file.txt
Результат её работы: file.txt
Отлично. После этого я написал скрипт: Ссылка
Этот скрипт фильтровал список рестриктаз, на предмет узнавания недопредставленных сайтов.
Результат его работы: final.txt

PSI-BLAST

Взял O05886. Предотвращает образование димеров 70S, вероятно, для регулирования эффективности трансляции при переходе между экспоненциальной и стационарной фазами.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 20 P17161.1 0.003 P17160.1 0.005
2 28 P9WMA8.1 0.003 - -
3 29 A0A1S4NYE3.2 0.004 P33621.1 0.015
4 30 D5CBA0.1 0.001 - -
5 30 P9WMA8.1 4e-19 - -
6 30 P9WMA8.1 5e-19 - -
Как видно из таблицы, выдача стабилизировалась к пятой-шестой итерации. Таким образом можно предположить, что находки составляют семейство гомологичных белков.