Практикум 8. Сигналы и мотивы III

Задание 1. PSI-BLAST

Для целей практикума был выбран следующий AC белка: P17265 - Ribosome hibernation promotion factor. Необходим для димеризации активных 70S рибосом в 100S рибосомы. 100S рибосомы трансляционно неактивны. Организм: Rhizobium meliloti (strain 1021).

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
PSI-BLAST Iteration 1 17 P0A147.1 7e-04 P26983.1 0.027
PSI-BLAST Iteration 2 27 P33987.1 1e-08 P9WMA8.1 0.015
PSI-BLAST Iteration 3 28 P9WMA8.1 0.002 Q6P9R4.3 0.013
PSI-BLAST Iteration 4 28 P24694.1 3e-18 P27321.3 0.22
PSI-BLAST Iteration 5 28 P24694.1 2e-18 P27321.3 0.19
Таблица 1.
Таблица итераций

Итог: стабилизация произошла на четвертой итерации (но вплоть до 6-ой итерации E-value белков, у которых E-value было меньше порогового, уменьшалось). Количество белков, у которых E-value было меньше порогового, каждый раз возрастало. E-value лучшей находки выше порога было примерно на 19 порядков больше, чем у худшей находки ниже порога. Можно заключить, что семейство неплохое.

Задание 2. Эндонуклеазы рестрикции

Задача состоит в предсказании некоторых эндонуклеаз рестрикции, которые может иметь бактерия Kitasatospora setae KM-6054. (ссылка на полный геном) Идея состоит в том, существование эндонуклеаз рестрикции в геноме бактерии подвергает опасности (фактически, утилизации) не только инородную ДНК, но и ДНК самой бактерии (ведь даже метилированная ДНК иногда гидролизуется собственными нуклеазами), особенно, если сайты, специфичные для этих эндонуклеаз широко представлены в геноме. Позтому существует отбор в сторону непредставленности, уменьшения количества таких сайтов в геноме "владельца" эндонуклеаз. По таким неслучайным отклонениям в геноме мы можем сделать предположение относительно наличия у бактерии той или иной рестриктазы.

Этап 1. Получение списка сайтов

Команда для извлечения столбца с последовательностями распознавания

cut -f 5 /P/y18/term4/pr8/TypeII_REs.tsv > restr_sites

Ссылка на файл restr_sites с вырезанными последовательностями распознавания.

Команда для удаления дубликатов

sort -u restr_sites > restr_sort

Затем удалил неподходящие для нас последовательности из файла restr_sort ('-', 'C').

Ссылка на файл restr_sort с отсортированными последовательностями распознавания.

Этап 2. Отбор недопредставленных сайтов

Представленность сайтов из файла restr_sort в геноме бактерии была оценена следующей командой:

cbcalc -K kita.fasta -s restr_sort -o res.tsv

Ссылка на файл kita.fasta с полным геномом бактерии.

Ссылка на файл res.tsv с таблицей представленности последовательностей распознавания в геноме бактерии.

Отбор производился по значениям колонки "O/E ratio (BCK)" (колонка с контрастом сайта по методу Карлина) в файле res.tsv. Был выбран порог 0.713 (самое значимое различие между соседними значениями на уровне 0.8 в отсортированной по возрастанию значений O/E ratio таблице - разница 0.713 и 0.781 - больше, чем различие в среднем). Фильтрация была осуществлена с помощью библиотеки pandas.

Ссылка на файл res_filt.csv с отфильтрованной по значению "O/E ratio (BCK)" таблицей представленности.

Этап 3. Отбор экспериментально проверенных эндонуклеаз

Из таблицы /P/y18/term4/pr8/TypeII_REs.tsv были отобраны те эндонуклеазы, сайты которых находились в таблице res_filt.csv и значения ячеек в колонке 'Putative' равнялось 'no' (т. е. о таких эндонуклеазах есть экспериментальные данные). Фильтрация была осуществлена с помощью библиотеки pandas.

Ссылка на файл restr.csv со конечной таблицей эндонуклеаз.

Ссылка на файл seq_ac_list.txt со списком AC последовательностей отобранных эндонуклеаз.

Ссылка на файл uniprot_ac_list.txt со списком AC последовательностей отобранных эндонуклеаз (к сожалению, не все отобранные эндонуклеазы имели такой AC).

Ссылка на файл task.ipynb с .ipynb файлом вычислений (разнообразных фильтраций данных) с помощью библиотеки pandas.

Вернуться на страницу семестра