Практикум 8

PSI-BLAST


Я выбрал белок P47908. Данный белок принадлежит Synechococcus, одноклеточным цианобактериям, широко распространенным в морской среде. Белок носит название Ribosome hibernation promotion factor и необходим для димеризации активных 70S рибосом в 100S рибосомы в стационарной фазе. 100S рибосомы являются трансляционно неактивными и иногда присутствуют во время экспоненциального роста. Его последовательность была загружена в PSI-BLAST и были проведены четыре итерации прежде чем результаты стабилизовались.Поиск осуществлялся по базе данных SwissProt, порог E-value составил 0.005 по умолчанию. Заполненную таблицу с данными можно скачать здесь, также результаты представлены на рисунке ниже.







Выводы

Качество результата определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков. Большая часть представленных белков являются, как и исходный белок, факторами гибернации рибосомы. Различие в e-value составляет [0.12 - (3Е-21)].Учитывая все вышеизложенное, думаю, что мы имеем дело с приличным семейством голомологичных белков.

Эндонуклеазы рестрикции

1. Получение списка сайтов рестрикции

Из таблицы с информацией об эндонуклеазах рестрикции с помощью jupyter notebook'а на Python с использованием библиотек numpy и pandas был получен список уникальных сайтов рестрикции длины >4 нуклеотидов.

2. Выбор недопредставленных сайтов

Я скачал полный геном зелёной серной бактерии Pelodictyon luteolum, с которым работал раньше по ссылке .
С помощью команды "cbcalc -s ok_sites.lst -o site_constrast.tsv Pelodyction_luteolum_DSM_273.fna.gz -K", запущенной в директории /home/students/y14/batyrsha/public_html/term4/pr8/data/ была получена таблица с контрастом представленности каждого сайта. Средствами pandas таблица была отсортирована отношения реального количества сайта в геноме к ожидаемому, первые 10 записей представлены на рисунке ниже.

Если брать предложенный в задании порог отношения в 0.8, то подходят первые 3 сайта в таблице, однако я решил, что недопредставленность 2-го и 3-го сайтов вряд ли является значимой, поскольку сайты слишком длинные для такого размера генома и ожидаемое количество сайтов менее 10, поэтому был выбран единственный сайт - CTAG.

3. Получение списка экспериментально проверенных нуклеаз рестрикции для полученных недопредставленных сайтов

Средствами pandas был получен список из 5 экспериментально подтверждённых эндонуклеаз рестрикции, предположительно имеющих гомологов в изучаемой бактерии, список представлен на рисунке ниже.


© Борис Бостан
На страницу семестра
На главную