Практикум 8
PSI-BLAST
Я выбрал белок P47908. Данный белок принадлежит Synechococcus, одноклеточным цианобактериям, широко
распространенным в морской среде. Белок носит название Ribosome hibernation promotion factor и необходим для димеризации активных 70S рибосом в 100S рибосомы
в стационарной фазе. 100S рибосомы являются трансляционно неактивными и иногда присутствуют во время экспоненциального роста. Его последовательность была загружена
в PSI-BLAST и были проведены четыре итерации прежде чем результаты стабилизовались.Поиск осуществлялся по базе данных SwissProt, порог E-value составил 0.005 по умолчанию.
Заполненную таблицу с данными можно скачать здесь, также результаты представлены на рисунке ниже.
Выводы
Качество результата определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки
составляют семейство гомологичных белков. Большая часть представленных белков являются, как и исходный белок, факторами гибернации рибосомы. Различие в e-value составляет
[0.12 - (3Е-21)].Учитывая все вышеизложенное, думаю, что мы имеем дело с приличным семейством голомологичных белков.
Эндонуклеазы рестрикции
1. Получение списка сайтов рестрикции
Из таблицы с информацией об эндонуклеазах рестрикции с помощью jupyter notebook'а на Python с использованием библиотек numpy и pandas был получен список уникальных сайтов рестрикции длины >4 нуклеотидов.
2. Выбор недопредставленных сайтов
Я скачал полный геном зелёной серной бактерии Pelodictyon luteolum, с которым работал раньше по ссылке .
С помощью команды "cbcalc -s ok_sites.lst -o site_constrast.tsv Pelodyction_luteolum_DSM_273.fna.gz -K", запущенной в директории /home/students/y14/batyrsha/public_html/term4/pr8/data/ была получена таблица с контрастом представленности каждого сайта. Средствами pandas таблица была отсортирована отношения реального количества сайта в геноме к ожидаемому, первые 10 записей представлены на рисунке ниже.
Если брать предложенный в задании порог отношения в 0.8, то подходят первые 3 сайта в таблице, однако я решил, что недопредставленность 2-го и 3-го сайтов вряд ли является значимой, поскольку сайты слишком длинные для такого размера генома и ожидаемое количество сайтов менее 10, поэтому был выбран единственный сайт - CTAG.
3. Получение списка экспериментально проверенных нуклеаз рестрикции для полученных недопредставленных сайтов
Средствами pandas был получен список из 5 экспериментально подтверждённых эндонуклеаз рестрикции, предположительно имеющих гомологов в изучаемой бактерии, список представлен на рисунке ниже.
© Борис Бостан
На страницу семестра
На главную