Задание 1
- Был выбран AC: P0AD49
- Этот белок - рибосома-ассоциированный ингибитор А из кишечной палочки Escherichia coli K-12. Этот белок инактивирует рибосому, ингибируя формирование димера 70S, в стационарной фазе бактерии, что замедляет скорость их размножения, т.е. заканчивается экспоненциальный рост популяции.
- Был запущен PSI-blast с моим белком, с порогом 0,005 и максимальным количеством последовательностей 500. Уже после первой итерации видно хорошее разделение, хотя и разница между лучшей из плохих и худшей из хороших всего 1 порядок. Поэтому неплохо бы сделать больше итераций.После второй итерации пропали находки ниже порога, а после третьей PSI-blast выдал No new sequences were found above the 0.005 threshold. При этом E-value конечных находок < 2e-24. Плюс ко всеми название худшей находки из лучших RecName: Ribosome hibernation promotion factor, что похоже по смыслу на рибосома-ассоциированный ингибитор А. Данные по итерациям в этой таблице
- По ходу все это говорит о том, что это семейство хорошо сгруппировалось.
Задание 2
- Для начала я скопировал файл TypeII_REs.tsv к себе в дирректорию public_html/term4/data/Pr8.
- После этого из файла были вытащены сайты узнавания, которые лежат в 5 столбце Recognition site. Для этого была исполнена
следующая команда:
cut -f5 TypeII_REs.tsv | sort -u > sites_REs.txt
- В полученном файле пришлось еще убрать строчки с -, одинокой C и с надписью Recognition site
- В итоге, получился такой файл
- Моя бактерия: Ureaplasma parvum serovar 3 str. ATCC 700970, геном которой в формате fasta я скачал для дальнейшей работы
- С помощью команды
cbcalc -s sites_REs.txt -o REs.tsv -K Ureaplasma.fasta
- Это значит, что я ищу сайты из файла sites_REs.txt в последовательности, которая представлена полным геномом моей бактерии. И при этом считать недопредставленность методом Карлинга. Выдать все в файл REs.tsv.
- В RStudio я посмотрел на мою таблицу. При этом оказалось, что только 15 сайтов имеют значение контраста сайта по методу Карлина меньше 0,8 при этом без стльных скачков. Поэтому не вижу смысла здесь не оставить порог 0,8.
Задание 3
- Для того, чтобы получить список экспериментально проверенных эндонуклеаз рестрикции, известная специфичность которых соответствует этим недопредставленным сайтам был написан этот скрипт, который выдал 39 разных эндонуклеаз.