Задание 1.PSI-BLAST

Для выполнения задания был выбран белок с AC Q67XL4 из организма Arabidopsis thaliana (Резуховидка Таля). Данный белок локализован в хлоропластах и содержит РНК-связывающий домен(CRM).

Скачать таблицу итераций

После 3 итерации число находок не увеличивалось, новых не появлялось. Правда после 5 итерации число находок уменьшилось на 1, на 6 итерации результат не изменился. В целом результат последних 4 итераций был стабилным, разница между худшим результатом лучше порога и лучшим хуже порога составляет 48 порядков. Думаю, такой разницы достаточно для того, чтобы считать полученное семейство хорошим.

Задание 2.Эндонуклеазы рестрикции

Задание заключалось в поиске специфичных эндонуклеаз рестрикции бактерии Chlorobaculum parvum NCIB 8327. Эти ферменты расщепляют чужеродную ДНК, узнавая в ней определённые сайты. Такие сайты могут встречаться в геноме самой бактерии и обычно защищены метилированием. Однако иногда,например, из-за ошибок метилирования сайтов, хозяйская ДНК гидролизуется, поэтому в геноме бактерии идёт отбор против таких сайтов. Таким образом, используя информацию о рестриктазах и их сайтах, можно найти в геноме 'недопредставленные' сайты и предположить, что рестриктазы соответствующие им специфичны для нашей бактерии.

1.Получение списка сайтов

Из файла с рестриктазами(TypeII_REs.tsv) был вырезан столбец, содержащий сайты рестрикции:
cut -f5 TypeII_REs.tsv > restrictionsite.tsv
Удаление дубликатов сайтов проводилось командой:
sort -u restrictionsite.tsv > restrictionsitesort.tsv
Далее были удалены сайты длиной 1 и 2 нуклеотида и неизвестные сайты -.

Скачать файл с сайтами рестрикции

2.Отбор недопредставленных сайтов

Отбирались сайты недопредставленные в геноме бактерии Chlorobaculum parvum NCIB 8327 с помощью программы CBcalc. CBcalc способна вычислять контраст по методу Карлина и соавторов. Команда запуска:
cbcalc -s restriction.tsv -K -o cbcalc.tsv Chlorobaculum\ parvum\ NCIB\ 8327.fna
restriction.tsv - файл с сайтами рестрикции, Chlorobaculum\ parvum\ NCIB\ 8327.fna - файл с полным геномом бактерии, cbcalc.tsv - выходной файл

Недопредставленными считались сайты, с значением "O/E ratio (BCK)" < 0.8. В результате был получен следующий список недопредставленных сайтов.

3.Отбор экспериментально проверенных эндонуклеаз

Проводился с помощью скрипта на python. Команда запуска:
scriptik.py TypeII_REs.tsv cites_final.txt рестриктазы.txt
где TypeII_REs.tsv - файл с рестриктазами, cites_final.txt - файл со списком сайтов, рестриктазы.txt - файл со списком рестриктаз
Всего было найдено 104 рестриктазы.
скачать файл со списком специфичных рестриктаз