Для выполнения практикума я выбрал цинк карбоксипептидазный домен (Zinc carboxypeptidase, Peptidase_M14 ) с идентификатором PF00246. В SwissProt 155 записей о белках с таким доменом.
Скаченное выравнивание seed содеражало 66 последовательностей, после удаления идентичных на 90% осталось 65. После окраски Clustal с Above identity threshold=81% я выбрал мотив с координатами 140-146. Паттерн Jalview этого мотива: [PILFYVA].{2}[NA][PVTIAM]DG. Поиск по этому паттерну в последовательности показал, что мотив находится во всех последовательностях (65 находок) друг под другом.
Поиск по паттерну [PILFYVA]-x(2)-[NA]-[PVTIAM]-D-G в PROSITE нашел 1027 находок в 1000 послежовательностей. Выравнивание Jalview показало, что часть находок может быть результатом подгонки алгоритма выравнивания. Не все находки были друг под другом.
Я построил дерево (метод NJ) для выравнивания seed и выбрал одну из клад.
Выравнивание выбранной клады я выделил в отдельное окно и при Above identity threshold=100% выбрал мотив YP[FY]D. Поиск по этому паттерну в изначальном выравнивании seed дал 15 находок — последовательности из выбранной клады. Таким образом мотив является специфичным для клады.
Из предложенного списка я выбрал AC C4Z088 — белок-ингибитор образования Z-кольца (препятствует полимеризации FtsZ), блокирующий клеточное деление из бактерии Lachnospira eligens. Далее был запущен поиск в PSI-BLAST по базе SwissProt
На 3 итерации список находок стабилизировался, интересно что PSI-BLAST не нашел ни одного белка с E-value хуже чем порог.
Номер итерации | Число находок c E-value лучше порога (0.005) | Идентификатор худшей находки с E-value лучше порога | E-value этой находки | Идентификатор лучшей находки с E-value хуже порога | E-value этой находки |
1 | 156 | Q2P036.1 | 0.004 | — | — |
2 | 188 | О25693.2 | 1.00E-09 | — | — |
3 | 188 | Q9ZM51.1 | 1.00E-11 | — | — |
Для выполнения этого задания я скачал 155 последовательностей белков с выбранным доменом из SwissProt, из них выбрал 70 последовательностей и запустил поиск мотивов с помощью MEME:
meme PF00246_prot.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4Выдача MEME
Далее провел поиск найденных мотивов в изначальном наборе 155 последовательностей с помощью FIMO. Было найдено 739 вхождений мотивов, некоторые встречаются в последовательностях несколько раз. Выдача FIMO
Для бактерии Pseudomonas aeruginosa получил оценку представленности сайта GATC, а также сайтов, полученных перестановкой соответсвующих букв с помощью cbcalc. По полученным данным была построена диаграмма.
Как видно из диаграммы, сайт GATC встречается чуть чаще ожидаемого, но не сильно. Намного чаще ожидаемого встречаются сайты ACGT и TCGA. Это следствие фиксируемой во многих геномах недопредставленности "слова" TA.