Практикум 10

Задание 1. Консервативных мотивы в выравнивании

Для выполнения практикума я выбрал цинк карбоксипептидазный домен (Zinc carboxypeptidase, Peptidase_M14 ) с идентификатором PF00246. В SwissProt 155 записей о белках с таким доменом.

Скаченное выравнивание seed содеражало 66 последовательностей, после удаления идентичных на 90% осталось 65. После окраски Clustal с Above identity threshold=81% я выбрал мотив с координатами 140-146. Паттерн Jalview этого мотива: [PILFYVA].{2}[NA][PVTIAM]DG. Поиск по этому паттерну в последовательности показал, что мотив находится во всех последовательностях (65 находок) друг под другом.

Поиск по паттерну [PILFYVA]-x(2)-[NA]-[PVTIAM]-D-G в PROSITE нашел 1027 находок в 1000 послежовательностей. Выравнивание Jalview показало, что часть находок может быть результатом подгонки алгоритма выравнивания. Не все находки были друг под другом.

”kjhg”
рис.1 Выравнивание в Jalview. Выделен выбранный мотив

Мотив, специфичный для одной клады филогенетического дерева

Я построил дерево (метод NJ) для выравнивания seed и выбрал одну из клад.

”kjhg”
рис.2 Дерево выравнивания. Выделены последовательности выбранной клады

Выравнивание выбранной клады я выделил в отдельное окно и при Above identity threshold=100% выбрал мотив YP[FY]D. Поиск по этому паттерну в изначальном выравнивании seed дал 15 находок — последовательности из выбранной клады. Таким образом мотив является специфичным для клады.

”kjhg”
рис.3 Выравнивание выбранной клады

PSI-BLAST

Из предложенного списка я выбрал AC C4Z088 — белок-ингибитор образования Z-кольца (препятствует полимеризации FtsZ), блокирующий клеточное деление из бактерии Lachnospira eligens. Далее был запущен поиск в PSI-BLAST по базе SwissProt

На 3 итерации список находок стабилизировался, интересно что PSI-BLAST не нашел ни одного белка с E-value хуже чем порог.

Табл.1 Итерации поиска PSI-BLAST

Номер итерации Число находок c E-value лучше порога (0.005) Идентификатор худшей находки с E-value лучше порога E-value этой находки Идентификатор лучшей находки с E-value хуже порога E-value этой находки
1 156 Q2P036.1 0.004
2 188 О25693.2 1.00E-09
3 188 Q9ZM51.1 1.00E-11

Поиск мотивов de novoс помощью MEME

Для выполнения этого задания я скачал 155 последовательностей белков с выбранным доменом из SwissProt, из них выбрал 70 последовательностей и запустил поиск мотивов с помощью MEME:

meme PF00246_prot.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4 

Выдача MEME

Далее провел поиск найденных мотивов в изначальном наборе 155 последовательностей с помощью FIMO. Было найдено 739 вхождений мотивов, некоторые встречаются в последовательностях несколько раз. Выдача FIMO

Представленность сайта GATC в геноме бактерии

Для бактерии Pseudomonas aeruginosa получил оценку представленности сайта GATC, а также сайтов, полученных перестановкой соответсвующих букв с помощью cbcalc. По полученным данным была построена диаграмма.

”kjhg”
рис.4 Диаграмма представленности сайтов

Как видно из диаграммы, сайт GATC встречается чуть чаще ожидаемого, но не сильно. Намного чаще ожидаемого встречаются сайты ACGT и TCGA. Это следствие фиксируемой во многих геномах недопредставленности "слова" TA.