Практикум 8

PSI-blast

Я взял идентификатор O05886.4. Ему соответствует белок Ribosome hibernation promotion factor из бактерии Mycobacterium tuberculosis,
Который участвует в образовании трансляционно неактивных димеров рибосом 100S.
Таблица итераций На пятой итерации список не изменился, и разрыв в e-value
между надпороговой и подпороговой позицей резко возрос и стал очень польшим (18 порядков!), из чего можно сделать заключение, что семейство является хорошим.

Эндонуклеазы рестрикции

Эндонуклеазы рестрикции представляют собой белки, которые у бактерий и архей участвуют в защите от вируса: они узнают чужеродную ДНК и разрезают её. Узнавание происходит по специфичной последовательности, составляющей обычно 4-6 нуклеотидов в длину. Однако такие сайты встречаются и ДНК самой бактерии, обычно они защищены от разрезания метилированием. Однако иногда случаются ошибки, и собственная ДНК все же разрезается. Поэтому происходит эволюционный отбор, направленный против сайтов рестрикции, поэтому мы можем изучить, какие сайты будут сильнее всего недопредставлены в геноме, скорее всего в бактерии активны соответствующие им эндонуклеазы.

Получение списка сайтов

Сначала я вырезал столбец с последовательностями сайтов из готового файла и отсортировал их, оставив только уникальные. Для этого я использовал команду
 	cut -f 5 TypeII_REs.tsv | sort -u > r_sites.txt
Затем я вручную удалил заголовок и странный сайт, состоящий из 1 буквы. Файл

Отбор недопредставленных сайтов

Я скачал геном бактерии Amphibacillus xylanus с сайта ncbi, затем при помощи команды
 cbcalc -s r_sites.txt -o cbcalc.tsv -K sequence.fasta
получил файл с данными о наблюдаемом числом сайтов в геноме (колонка Observed), ожидаемым количеством сайтов (Expected (BCK)) и контрастом по методу Карлина (O/E ratio (BCK)).Затем я отсортировал данные по убыванию значения O/E ratio (BCK) при помощи excel. Мне показался разумным порог 0.9, потому что вокруг данного порога разница между соседними значениями максимальна (0.017, между другими соседними парами значений она обычно не превышает 0.005). Ниже порога оказалось 14 последовательностей. Таблица

Отбор экспериментально проверенных эндонуклеаз

Далее я отобрал эндонуклеазы, специфичные к данным последовательностям, для которых была хоть какая-то экспериментальная проверка активности ('no' в колонке Putatitive). Для этой задачи я написал скрипт на питоне. Найденные 28 эндонуклеаз представлены в файле