PSI-BLAST

В этом задании нужно было для данной последовательности белка составить семейство гомологов, пользуясь PSI-BLAST. Я взяла белок с AC Q7VDL2. Это белок MinC определяющий вероятные сайты септ у грамм отрицательных бактерий Aquifex aeolicus. По всоим функциям он является ингибитором клеточного деления, который блокирует образование полярных Z-кольцевых перегородок. Он быстро осцилирует между полюсами ячейки, чтобы дестабилизировать нити FtsZ, которые сформировались прежде, чем они созрели в полярные Z-кольца. Предотвращает полимеризацию FtsZ (по сходству).

Таблицу итераций можно скачать по ссылке и она представлена на рисунке 1.

Таблица

Рисунок 1.

Мои итерации стабилизировались уже после третьей итерации, но я на всякий случай сделала всего шесть итераций. Поскольку все стабилизировалось достаточно быстро и в последних итерациях разница E-value была достаточно большой. Из этого можно сделать вывод, что очень вероятно, что белки выше порога составляют семейство.

Эндонуклеазы рестрикции

В этом задании я попыталась предсказать специфичность эндонуклеаз рестрикции для Acidothermus cellulolyticus 11B по списку недопредставленных сайтов узнавания в ее геноме. Для этого я использовала полный геном бактерии и список сайтов узнавания.

Список сайтов узнавания был получин из файла /P/y18/term4/pr8/TypeII_REs.tsv при помощи команды cut TypeII_REs.tsv -f 5 | sort -u >> site.txt. Файл site.txt я дополнительно сократила сама, удалив оттуда сайт из одной буквы, потому что это уже не сайт. Скачать полученнный сайт можно по ссылке.

Следующим шагом было отбрать недопредставленные сайты. Для этого был использован метод Карлина и соавторов. С помощью команды cbcalc -s site.txt -o repr.tsv -K sequence.fasta была получена таблица с ожидаемым и наблюдаемым колечествами сайтов в геноме. Скачать таблицу. Затем я отобрала те сайты, чей контраст (т.е. отношение наблюдаемого количества сайтов к ожидаемому) был меньше 0.9. Я выбрала такой порог, потому что таких сайтов не очень много, а сайтов с контрастом ниже предлагаемого порога 0.8 практически нет. Отбор сайтов я провела с помощью команды sort -k5,5g repr.tsv | sed '/0.9/,$d' >> nedo.tsv. Полученный мной файл можно скачать.

Последним шагом было написание скрипта, чтобы отсеить из полученных недопредставленных рестриктаз, только действие которых наблюдалось. Скрипт можно скачать по ссылке. (Для работы скрипта вводить перым агрументом tsv-файл, выданный програмой cbcalc, только с нужными нам сайтами, вторым агрументом TypeII_REs.tsv и третьим аргументом выходной файл.)

Вот полученные мной эндонуклеазы рестрикции: MthZI, PacI, PmeI, SpeI, SspI, LlaCI, MseI.