Левин И., 4-й семестр, практикум 8

Проверка недопредставленности сайтов в геноме;

PSI-BLAST

Задание 1. Проверка недопредставленности сайтов рестрикции в геноме бактерии

Для работы была выбрана бактерия Edwardsiella tarda FL6-60. Геном отбирался по принципу наличия в нем системы Р-М типа II с известным сайтом рестрикции.

Представленность найденных сайтов рестрикции в геноме

Здесь вы можете найти REBASE Genome Summary выбранной мной бактерии; исходя из него был составлен список сайтов рестрикции. Так как я решил рассматривать хромосому бактерии (была представлена ещё и плазмида), сайтов я собрал всего 2, после чего оценил их представленность с помощью контраста, вычисленного методом Карлина (и соавторов). Использовал я программу cbcalc:

$ cbcalc -s sites.txt -o out_1.tsv -K genome.fasta

В выходном файле out_1.tsv вы найдёте полученную таблицу представленности. В ней, в колонке 'O/E ratio (BCK)', находятся искомые значения контраста. Учитывая порог в 0.8, получается, что оба сайта прекрасно представлены, так как имеют значения контраста больше 0.8.

Представленность всех недопредставленных сайтов рестрикции систем Р-М типа II

Аналогичным прошлому заданию способом оценим представленность всех недопредставленных сайтов рестрикции систем Р-М типа II, только надо было немного приготовить данные, а именно выделить уникальные последовательности сайтов узнавания из большого датасета с ними (благодушно представленного преподавателем в задании практикума) и перевести в формат, который будет понятен cbcalc. Сделать я это решил с помощью скрипта на Python.

После небольшой подготовки данных я написал пайплайн, реализующий фильтрацию выходной таблицы программы cbcalc по столбцу 'O/E ratio (BCK)', оставляя строки, имеющие значение контраста меньше 0.8 (мы же недопредставленные сайты ищем):

$ cbcalc -s sites_1.txt -K genome.fasta | sort -k5,5g | awk '$5 + 0 < 0.8' > out_2.tsv

Собственно, в файле out_2.tsv записан датасет со всеми недопредставленными в геноме нашей бактерии сайтами рестрикции.

Получаем список эндонуклеаз рестрикции, узнающих найденные недопредставленные сайты рестрикции

Сделать это я решил опять же с помощью скрипта на языке Python. По сути, скрипт отфильтровывает большой датасет со всеми эндонуклеазами по колонке 'Putative' (которая показывает, была ли какая-то экспериментальная проверка активности белка, или нет; 'no' значит, что была), оставив лишь те эндонуклеазы, имеющие значение 'no' в этой колонке, после чего из оставшихся выбирает те эндонуклеазы, у которых сайт узнавания совпадает с каким-либо непредставленным сайтом из списка, который мы получили в прошлом пункте.

Здесь вы найдёте результат.

Задание 2. PSI-BLAST

Наугад был выбрал белок с АС P17265. Это оказался фактор стимуляции гибернации рибосом (Ribosome hibernation promotion factor, HPF) из Sinorhizobium meliloti. Гибернация в отношении к рибосомам (насколько я понял) - ответ клетки на неблагоприятные условия, который осуществляется путём снижения уровня синтеза белка, а именно консервации рибосом: их разборке на 30S и 50S субъединицы или превращение в трансляционно неактивные 70S и 100S комплексы [1].

Таблица 1. Итерации PSI-BLAST
Номер итерации Число находок с E-value выше порога (0.005) AC худшей находки с E-value выше порога (0.005) E-value этой худшей находки AC лучшей находки с E-value ниже порога (0.005) E-value этой лучшей находки "Ступенька" E-value
1 17 P0A147.1 7e-04 P26983.1 0.028 -0.0273
2 27 P33987.1 1e-08 - - -
3 28 P9WMA8.1 0.002 - - -
4 28 P24694.1 3e-18 - - -
5 28 P24694.1 2e-18 - - -

Как мы можем заметить, результат стабилизировался начиная с 4-й итерации PSI-BLAST (т. е. список находок выше порога не поменялся), что является признаком того, что бы составили достаточно консервативное семейство нашего белка HPF. Про качество составления я затрудняюсь что-либо сформулировать, так как начиная со 2-й итерации белков ниже порога просто не было, и посчитать "ступеньку" было невозможно, а судить всё семейство по одной ступеньке (хоть она достататочно большого размера, чтобы говорить о достойном качестве сборки семейства) мне кажется неразумным.