Для целей практикума был выбран следующий AC белка: P17265 - Ribosome hibernation promotion factor. Необходим для димеризации активных 70S рибосом в 100S рибосомы. 100S рибосомы трансляционно неактивны. Организм: Rhizobium meliloti (strain 1021).
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
PSI-BLAST Iteration 1 | 17 | P0A147.1 | 7e-04 | P26983.1 | 0.027 |
PSI-BLAST Iteration 2 | 27 | P33987.1 | 1e-08 | P9WMA8.1 | 0.015 |
PSI-BLAST Iteration 3 | 28 | P9WMA8.1 | 0.002 | Q6P9R4.3 | 0.013 |
PSI-BLAST Iteration 4 | 28 | P24694.1 | 3e-18 | P27321.3 | 0.22 |
PSI-BLAST Iteration 5 | 28 | P24694.1 | 2e-18 | P27321.3 | 0.19 |
Итог: стабилизация произошла на четвертой итерации (но вплоть до 6-ой итерации E-value белков, у которых E-value было меньше порогового, уменьшалось). Количество белков, у которых E-value было меньше порогового, каждый раз возрастало. E-value лучшей находки выше порога было примерно на 19 порядков больше, чем у худшей находки ниже порога. Можно заключить, что семейство неплохое.
Задача состоит в предсказании некоторых эндонуклеаз рестрикции, которые может иметь бактерия Kitasatospora setae KM-6054. (ссылка на полный геном) Идея состоит в том, существование эндонуклеаз рестрикции в геноме бактерии подвергает опасности (фактически, утилизации) не только инородную ДНК, но и ДНК самой бактерии (ведь даже метилированная ДНК иногда гидролизуется собственными нуклеазами), особенно, если сайты, специфичные для этих эндонуклеаз широко представлены в геноме. Позтому существует отбор в сторону непредставленности, уменьшения количества таких сайтов в геноме "владельца" эндонуклеаз. По таким неслучайным отклонениям в геноме мы можем сделать предположение относительно наличия у бактерии той или иной рестриктазы.
Команда для извлечения столбца с последовательностями распознавания
cut -f 5 /P/y18/term4/pr8/TypeII_REs.tsv > restr_sites
Ссылка на файл restr_sites с вырезанными последовательностями распознавания.
Команда для удаления дубликатов
sort -u restr_sites > restr_sort
Затем удалил неподходящие для нас последовательности из файла restr_sort ('-', 'C').
Ссылка на файл restr_sort с отсортированными последовательностями распознавания.
Представленность сайтов из файла restr_sort в геноме бактерии была оценена следующей командой:
cbcalc -K kita.fasta -s restr_sort -o res.tsv
Ссылка на файл kita.fasta с полным геномом бактерии.
Ссылка на файл res.tsv с таблицей представленности последовательностей распознавания в геноме бактерии.
Отбор производился по значениям колонки "O/E ratio (BCK)" (колонка с контрастом сайта по методу Карлина) в файле res.tsv. Был выбран порог 0.713 (самое значимое различие между соседними значениями на уровне 0.8 в отсортированной по возрастанию значений O/E ratio таблице - разница 0.713 и 0.781 - больше, чем различие в среднем). Фильтрация была осуществлена с помощью библиотеки pandas.
Ссылка на файл res_filt.csv с отфильтрованной по значению "O/E ratio (BCK)" таблицей представленности.
Из таблицы /P/y18/term4/pr8/TypeII_REs.tsv были отобраны те эндонуклеазы, сайты которых находились в таблице res_filt.csv и значения ячеек в колонке 'Putative' равнялось 'no' (т. е. о таких эндонуклеазах есть экспериментальные данные). Фильтрация была осуществлена с помощью библиотеки pandas.
Ссылка на файл restr.csv со конечной таблицей эндонуклеаз.
Ссылка на файл seq_ac_list.txt со списком AC последовательностей отобранных эндонуклеаз.
Ссылка на файл uniprot_ac_list.txt со списком AC последовательностей отобранных эндонуклеаз (к сожалению, не все отобранные эндонуклеазы имели такой AC).
Ссылка на файл task.ipynb с .ipynb файлом вычислений (разнообразных фильтраций данных) с помощью библиотеки pandas.
Вернуться на страницу семестра