Для выполнения этого практикума я взял внеклеточную часть рецептора CD4 (Pfam:
PF09191), seed для этого семейства содержит 20 последовательностей, они были открыты
в JalView с окраской Clustal по проценту идентичности 75% (рис. 1). В качестве консервативной последовательности был выбран участок 91–100:
AGSG.LTL.L (13 находок), ослабленный до [AV]G[SF]G.[LF][TSRL]L.[LFI] (все 20 находок). В формате ProSite этот паттерн выглядит так:
[AV]-G-[SF]-G-x-[LF]-[TSRL]-L-x-[LFI].
Рис. 1. Выравнивание последовательностей из выбранного семейства.
С помощью онлайн-сервиса MyHints производился поиск мотивов по базе данных SwissProt. В
результате нашел 30 паттернов, 15 из которых — это CD4, а остальные в основном являются ферментами трансферазами и мутазами.
Консервативные мотивы в выравнивании
Далее в JalView было построено филогенетическое дерево с помощью Neighbour Joining, используя матрицу BLOSUM62 (рис. 2). Опираясь на это дерево, я
выделил кладу из 14 последовательностей (рис. 3).
Для работы был выбран новый мотив: чуть первышающий старый по размерам, с координатами 89–100: QYAGSG.LTL.L (3 находки из 14), который я ослабил до
[QRD][YHNF][AV]G[SF]G.[LF][TSRL]L.[LFI] (все 14 находок). В формате ProSite этот паттерн выглядит как
[QRD]-[YHNF]-[AV]-G-[SF]-G-x-[LF]-[TSRL]-L-x-[LFI].
При поиске по всему выравниванию, этот паттерн был найден только в 17 последовательностях из 20. Часть из находок — сестринские к выбранной кладе,
но не все.
PSI-BLAST
Не нарушая традиции всех практикумов, где мне надо было что-то выбрать, я решил выбрать последний белок — Q67XL4. Это хлоропластный белок с
неописанной функцией, содержащий РНК-связывающий CRM-домен At3g25440. Выдача PSI-BLAST для этого белка стабилизировалась уже на четвертой итерации
(табл. 1), что говорит о высоком сходстве белков этого семейства. Это также видно из выдачи: все белки являются РНК-связывающими, из чего можно
сделать вывод о консервативности этого свойства внутри семейства.
Номер итерации
Число находок выше порога (0,005)
Идентификатор худшей находки выше порога
E-value этой находки
Идентификатор лучшей находки ниже порога
E-value этой находки
1
18
Q9FFU1.1
0.004
Q9SL79.2
0.012
2
23
P54454.1
0.0002
—
—
3
25
Q58068.1
2e-6
—
—
4
25
Q58068.1
7e-17
Q898C7.1
0.007
Табл. 2. Анализ выдачи PSI-BLAST (Position-Specific Iterated BLAST).
Поиск de novo мотивов при помощи MEME в выборке поледовательностей с доменом из SwissProt
Поскольку для моего домена находок (да и просто последовательностей в seed) было не так много, я решил сменить белок на семейство цитохромов p450
(Pfam: PF00067). Это гемтиолатные белки, участвующие в окислительном разрушении
токсинов и мутагенов окружающей среды.
В нем был выбран не самый большой мотив F-X(2)-G-X(3)-C-X-G-X(3)-A, который я нашел в 815 последовательностях
из SwissProt. Бегло изучил выдачу: большинство белков в ней — цитохромы, причем зачастую именно P450. Так что несмотря на размер этого мотива,
по нему вполне можно изучать как семейство цитохромов Р450, так и в принципе надсемейство цитохромов.
В SwissProt при поиске по этому мотиву нашлось 1759 белков, так что я взял только белки Резуховидки Таля, Arabidopsis thaliana,
их 141. При помощи remove redundancy в JalView с redundancy threshold 30 выборка была сокращена еще до
68 последовательностей. Далее были запущены MEME и FIMO.
fimo meme_results/meme.txt default.fa; HTML Output
Представленность сайта GATC в геноме Escherichia coli
К сожалению, вместо моей бактерии в первом семестре у меня была моя архея, так что для анализа я взял кишечную палочку, Escherichia coli
(strain K12). Ее геномная сборка доступна по ссылке.
С помощью скрипта Карины Каримовой были
посчитаны контрасты obs/exp по методу Карлина для сайта GATC, а также для всех сайтов длины 4, полученных перестановками нуклеотидов (без
повторений) (рис. 4). Как мы видим, Сайты GATC представлены несколько реже, чем статистически ожидалось. Интересно, что сайт CTAG встречается
значительно реже, чем мы ожидаем с точки зрения статистики.
Рис. 4. Гистограмма представленности для всех сайтов длины 4.