Практикум 10

Поиск мотивов в домене PF13864

Для анализа я выбрала домен PF13864, Enkurin. Это кальмодулин-связывающий домен, своим C-концом связывающийся с кальциевыми каналами, а своим N-концом — с белками с доменом SH3[1].

Я скачала его seed выравнивание и убрала последовательности, идентичные на 65% и выше. Количество последовательностей уменьшилось со 100 до 36.

Я искала в выравниваении паттерн с N-конца, имеющее паттерн G[RK][IVLA]P.Y[IVLM]. Все находки (20 штук) оказались на N-конце (см. рис. 1).

Рис. 1. Мотив G[RK][IVLA]P.Y[IVLM] в выравнивании seed с последовательностями, идентичными менее, чем на 65%.

Чтобы найти этот мотив в других белках, я осуществила поиск по SwissProt при помощи инструмента ScanProsite. Нашлось 203 находки в 202 последовательностях. Выровненные при помощи MAFFT эти последовательности можно скачать по ссылке. Я оставила послдедовательности с идентичностью в 98% и ниже, их осталось 52. Я нашла в Jalview тот же мотив в этом выравнивании. Очевидно, в каждой последовательности будет хотя бы одна находка. На рис. 2 можно видеть, что около половины из них находятся в одном месте выравнивания.

Это свидетельствует в пользу того, что во всех этих последовательностях правда есть этот домен.

Рис. 2. Мотив G[RK][IVLA]P.Y[IVLM] в выравнивании найденных с помощью ScanProsite последовательностей, идентичных менее, чем на 98%.

Поиск мотивов в одной ветви дерева

Я взяла все выравнивание seed из прошлого задания и в Jalview построила дерево при помощи алгоритма NJ. Результаты можно видеть на рис. 3.

Рис. 3. NJ-дерево выравнивания seed домена PF13864.

Для поиска мотива я взяла группу, отмеченную красным на рис. 3. Я выбрала мотив [RK]{2,3}E..E..L, он встречается в белках из этой ветви 14 раз, все находки находятся друг под другом (рис. 4).

Рис. 4. Поиск мотива [RK]{2,3}E..E..L в выбранной ветви.

Поиск этого мотива по всему выравниванию выдал 19 находок, 3 из которых, соответственно, принадлежали не этой ветви, при этом одна из 3 была в том же месте, а еще 2 — в другом. Видимо, этот мотив не до конца специфичен для этой ветви и этого места.

PSI-BLAST

Для PSI-BLAST я выбрала белок с AC P19954. Это связывающийся с рибосомой фактор, регулирующий синтез белка в зависимости от света и темепратуры. Принадлежит этот белок шпинату, Spinacia oleracea. Я запустила PSI-BLAST для этого белка с поиском по Swiss-Prot и остальными параметрами по умолчанию. Результаты итераций можно видеть в табл. 1.

Табл. 1. Итерации PSI-BLAST.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 17 P30334.1 0.004 P19954.2 0.0
2 28 P9WMA8.1 0.003 P19954.2 5 * 10-154
3 28 P9WMA8.1 7 * 10-13 P19954.2 4 * 10-147

Можно видеть, что схождения мы добились и что, видимо, найденные белки принадлежат одному семейству. Даже с поправкой на множественные сравнения после третьей итерации все находки остаются значимыми.

Все находки, кроме последней, имеют в названии «Ribosome factor», последняя же находка называется «Dormancy associated translation inhibitor». Вообще, видимо, так как ингибиторы трансляции тоже связываются с рибосомой, это белок со схожей функцией, но если предположить, что он из другого семейства, скачаок в e-value между правильными и неправильными находками составляет более 8 порядков.

Поиск мотивов при помощи MEME и FIMO

Для того, чтобы найти мотивы MEME в этом домене, я скачала последовательности белков, в архитектуре которых есть только этот домен. Для тренировки MEME я взяла белки со свидетельством существования «Protein level» или «Transcript level» (суммарно 60 последовательностей, скачать можно по ссылке), для теста взяла белки с предсказанным существованием (3281 последовательность, скачать по ссылке).

Для поиска в MEME и FIMO я запустила на kodomo следующие команды

meme idmapping_existence_1_and_2_2024_05_21.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4
fimo  results/meme.txt idmapping_existence_4_2024_05_22.fasta

Таблицу с результатами FIMO можно скачать по ссылке.

Результаты MEME и FIMO можно видеть в таблице 2.

Табл. 2. Результаты MEME и FIMO.
Мотив MEME-1 MEME-2 MEME-3 MEME-4
Изображение
E-value 1.6 * 10-116 5.1 * 10-67 3.6 * 10-40 1.7 * 10-36
Количество находок
q-value < 0,05
4225 3968 2683 2287

Ожидаемое число случайных находок с q-value < 0,05 — 0, поэтому, видимо, все эти мотивы действительно характерны для этого домена.

Список литературы

  1. Sutton KA, Jungnickel MK, Wang Y, Cullen K, Lambert S, Florman HM. Enkurin is a novel calmodulin and TRPC channel binding protein in sperm. Dev Biol. 2004 Oct 15;274(2):426-35. doi: 10.1016/j.ydbio.2004.07.031. PMID: 15385169.