Проверка недопредставленности сайтов в геноме;
PSI-BLAST
Задание 1. Проверка недопредставленности сайтов рестрикции в геноме бактерии
Для работы была выбрана бактерия Edwardsiella tarda FL6-60. Геном отбирался по принципу наличия в нем системы Р-М типа II с известным сайтом рестрикции.
Представленность найденных сайтов рестрикции в геноме
Здесь вы можете найти REBASE Genome Summary выбранной мной бактерии; исходя из него был составлен список сайтов рестрикции. Так как я решил рассматривать хромосому бактерии (была представлена ещё и плазмида), сайтов я собрал всего 2, после чего оценил их представленность с помощью контраста, вычисленного методом Карлина (и соавторов). Использовал я программу
$ cbcalc -s sites.txt -o out_1.tsv -K genome.fasta
-s sites.txt - подаю на вход программе список найденных сайтов рестрикции (сами последовательности); каждый сайт отделён от другого пробелом;-o out_1.tsv - обозначаю, чтобы табулированный выход записался в файл, а не вышел в STDOUT;-K - выбираю метод Карлина для подсчёта контраста;genome.fasta - подаю файл с геномом выбранной мною бактерии, так как представленность сайтов будем оценивать именно в нём.
В выходном файле
Представленность всех недопредставленных сайтов рестрикции систем Р-М типа II
Аналогичным прошлому заданию способом оценим представленность всех недопредставленных сайтов рестрикции систем Р-М типа II, только надо было немного приготовить данные, а именно выделить уникальные последовательности сайтов узнавания из большого датасета с ними (благодушно представленного преподавателем в задании практикума) и перевести в формат, который будет понятен
После небольшой подготовки данных я написал пайплайн, реализующий фильтрацию выходной таблицы программы
$ cbcalc -s sites_1.txt -K genome.fasta | sort -k5,5g | awk '$5 + 0 < 0.8' > out_2.tsv
Собственно, в файле
Получаем список эндонуклеаз рестрикции, узнающих найденные недопредставленные сайты рестрикции
Сделать это я решил опять же с помощью скрипта на языке Python. По сути, скрипт отфильтровывает большой датасет со всеми эндонуклеазами по колонке
Здесь вы найдёте результат.
Задание 2. PSI-BLAST
Наугад был выбрал белок с АС P17265. Это оказался фактор стимуляции гибернации рибосом (Ribosome hibernation promotion factor, HPF) из Sinorhizobium meliloti. Гибернация в отношении к рибосомам (насколько я понял) - ответ клетки на неблагоприятные условия, который осуществляется путём снижения уровня синтеза белка, а именно консервации рибосом: их разборке на 30S и 50S субъединицы или превращение в трансляционно неактивные 70S и 100S комплексы [1].
Таблица 1. Итерации PSI-BLAST | ||||||
---|---|---|---|---|---|---|
Номер итерации | Число находок с E-value выше порога (0.005) | AC худшей находки с E-value выше порога (0.005) | E-value этой худшей находки | AC лучшей находки с E-value ниже порога (0.005) | E-value этой лучшей находки | "Ступенька" E-value |
1 | 17 | P0A147.1 | 7e-04 | P26983.1 | 0.028 | -0.0273 |
2 | 27 | P33987.1 | 1e-08 | - | - | - |
3 | 28 | P9WMA8.1 | 0.002 | - | - | - |
4 | 28 | P24694.1 | 3e-18 | - | - | - |
5 | 28 | P24694.1 | 2e-18 | - | - | - |
Как мы можем заметить, результат стабилизировался начиная с 4-й итерации PSI-BLAST (т. е. список находок выше порога не поменялся), что является признаком того, что бы составили достаточно консервативное семейство нашего белка HPF. Про качество составления я затрудняюсь что-либо сформулировать, так как начиная со 2-й итерации белков ниже порога просто не было, и посчитать "ступеньку" было невозможно, а судить всё семейство по одной ступеньке (хоть она достататочно большого размера, чтобы говорить о достойном качестве сборки семейства) мне кажется неразумным.