Практикум 10. Мотивы в белках паттерны и PSSM для их поиска

Поиск консервативных мотивов в выравнивании

Для выполнения практической работы мною был выбран домен SH3 domain (PF00018/SH3_1): записей seed 55 (так что по критерию подходит). Затем я зашла в Pfam и скачала seed и перешла в Jalview:

Рисунок 1. Изображение seed на Above identity threshold 100%

Поскольку на 100% видна только одна покрашенная колонка, то пришлось снижать порог до 50%:

Рисунок 2. Изображение seed на Above identity threshold 50%

Здесь виден мотив на координатах 2-6 (на 8 координате тоже видно что-то консервативное, но 7 координата не консервативна, поэтому беру только до 6). Информационное содержимое найденного мотива невысокое.

На основании полученного мотива можно записать следующий паттерн Jalview: [AVT][RLVEKIMQA][YFHNKLAS][DESNPAG][FLY] (был найден во всех последовательностях). Далее я переделала паттерн в формат Prosite: [AVT]-[RLVEKIMQA]-[YFHNKLAS]-[DESNPAG]-[FLY], но ScanProsite выдал ошибку, потому что слишком много совпадений. Поэтому пришлось сокращать до самых частых букв в столбцах: A-L-Y-D-Y. После этого выдача была следующей:

Рисунок 3. Выдача Prosite

Было получено 333 совпадения в 330 последовательностях. Найденные белки выполняют разные функции и принадлежат абсолютно разным организмам (здесь лежит ссылка на graphical view). В общем, ничего кроме разочарования я здесь не ощутила.

Поиск мотива, специфичного для одной клады филогенетического дерева

Я продолжала заниматься со своим прекрасным (нет) выравниванием и построила филогенетическое дерево по методу NJ (я не увидела метод UPGMA):

Рисунок 4. Изображение дерева

У меня не получилось выделить выравнивание этой клады в отдельное окно, поэтому смотрела на общем выравнивании.

Рисунок 5. Общее выравнивание с выделенной кладой

У этой клады очень много консервативных мотивов. Я выбрала с координатами 369-380. Он специфичен для клады.

PSI-BLAST

Методом великого Бога рандома мне выпала цифра 5, значит буду работать с белком Q7VDL2.

Исследуемый белок ингибирует клеточное деление у цианобактерии Prochlorococcus marinus (штамм SARG/CCMP1375/SS120), действуя как негативный регулятор цитокинеза. Его механизм включает:

Для этого белка с помощью PSI-BLAST был осуществлен поиск семейства гомологов, ниже представлена таблица после 3 итераций (этого количества хватило, чтобы сделать выводы):

Рисунок 6. Результат итераций PSI-BLAST

Таблица демонстрирует, что PSI-BLAST эффективно идентифицировал целевое белковое семейство уже к 3-й итерации:

Поиск мотивов de novo с помощью MEME

С помощью Pfam скачала последовательности белков, содержащие домен PF00018 (585 Reviewed), в fasta-формате. С помошью консольной программы meme был проведен поиск de novo мотивов в этих белках:

Здесь представлена ссылка на выдачу meme. Было найдено 4 мотива, все они были с низким E-value. Одним из мотивов является тот, что был найден в seed, а именно ALYDY (значит он является важным для домена). Ниже представлено его изображение:

Рисунок 7. Logo ALYDY

Оценка представленности сайта GATC в геноме Streptomyces globosus

Для проведения оценки понадобился геном моей бактерии Streptomyces globosus в fasta-формате, а также набор комбинаций GATC. Для подсчета контрастов была использована следующая программа:

Результатом данной программы стала таблица res.tsv. При помощи Python я визуализировала полученные данные следующим образом:

Рисунок 8. Гистограмма представления сайтов

Представленность сайта метилирования GATC невысокая. Скорее всего, сайтом метилирования является иной сайт.