8.1 PSI-BLAST

Ссылка с таблицей
Был взят идентификатор P0AD49 из списка. Ему соответствует белок Рибосома-ассоциированный ингибитор А (Ribosome-associated inhibitor A) из Кишечной палочки (Escherichia coli (strain K12)).
Во время стационарной фазы (когда размер бактериальной популяции остается неизменным - количество умерших клеток равно количеству появившихся) предотвращает формирование димера 70S (что инактивирует рибосому - трансляция не начинается). Вероятно, это нужно для регуляции эффективности трансляции при перехое от экспоненциальной фазы роста популяции к стационарной. (то есть, в стационарной фазе жизнедеятельность отдельных бактериальных клеток достаточно сильно меняется?!)

Уже после второй итерации список находок практически не менялся. (на четвертой перетасовались последние 2 позиции, но я решила, что все равно все достаточно стабильно). Так как разрыв в E-value для самой плохой надпороговой находки и лучшей подпорогвой был значительным: 2 порядка на 2ой итерациив; то семейство считаю хорошим.

8.2 Эндонуклеазы рестрикции

1. Список потенциальных сайтов рестрикции.

Для начала я из файла /P/y18/term4/pr8/TypeII_REs.tsv с помощью команды

    cut -f5 TypeII_REs.tsv | sort -u > sites.txt     
вырезала 5 столбец (delimeter = '\t' по умолчанию), в пятом столбце Recognition site. Потом - сортировка с параметром -u - игнорировать повторяющиеся строки.
Потом я вручную удалила - (неизвестна последовательность узнавания), имя колонки, и странный сайт из одной буквы С.
Список сайтов

2. Оценка представленности сайтов в геноме бактерии

Теперь я с сайта ncbi скачала полный геном моей бактерии Hydrogenobacter thermophilus TK-6 С помощью команды

   cbcalc -s sites.txt -o restrict.tsv -K hydrogenobacter.fasta   
то есть искать сайты, перечисленные в файле sites.txt через пробельные символы по последовательности в файле hydrogenobacter.fasta
Считать недопредставленность методом Карлина (тэг -K) и выдачу напечатать в файл restrict.tsv
Выдача программы
Таблица для порога 0.8
Таблица для порога 0.3
Мне, конечно, кажется, что вероятнее всего вот эти 4 сайта соответствуют в моей бактерии сайтам эндонуклеаз - для них значение контраста сайта по методу Карлина вообще меньше 0.3, а значение для следующего сайта прыгает до 0.488
Sequence ID	Site	Observed	Expected (BCK)	O/E ratio (BCK)	Total      
hydrogenobacter TCGA 176 1215.2 0.145 1743132
hydrogenobacter CTAG 425 2728.12 0.156 1743132
hydrogenobacter ACGT 451 2383.27 0.189 1743132
hydrogenobacter GGCC 619 2730.92 0.227 1743132

3. Получить список экспериментально проверенных эндонуклеаз рестрикции

Был написан скрипт на питоне, который для каждой эндонуклеазы проверял, есть ли ее сайт в списке найденных в предыдущем задании, а потом проверял, чтобы в нужной колонке (Putative) стояло no - то есть была хоть какая-то экспериментальная проверка активности белка.
Таблица для порога 0.8
Таблица для порога 0.3