учебная страничка Маши Смирновой

практикум 8. сигналы и мотивы

1. описание мотива в белках паттерном

выбор мнемоники и белков

мнемоника: EFTU, фактор элонгации трансляции Tu. белок доставляет аминоацил-тРНК в A-сайт рибосомы в комплексе с GTP, после гидролиза уходит и регенерируется с помощью EF-Ts. это один из самых консервативных бактериальных белков, поэтому найти хороший участок без гэпов несложно.

всего в файле /P/y24/term4/bacteria-sw.fasta белков с мнемоникой EFTU: 790.

белки:

Entry Name UniProt ID Организм
EFTU1_ECOLIP0CE47Escherichia coli K12
EFTU_BACSUP33166Bacillus subtilis 168
EFTU_THEAQQ01698Thermus aquaticus
EFTU_NEIMBP64027Neisseria meningitidis MC58
EFTU_CORGBA4QBH0Corynebacterium glutamicum R
EFTU_LISINQ927I6Listeria innocua CLIP 11262
EFTU_HELPGB5Z8K3Helicobacter pylori G27
EFTU_BIFLSB7GU46Bifidobacterium longum infantis
EFTU_GLOC7B7K834Gloeothece citriformis PCC 7424

выравнивание

последовательности скачаны с UniProt, выровнены MUSCLE 5.2 на kodomo:

muscle -align eftu.fasta -output eftu_aligned.fasta

выравнивание смотрела в Jalview. ниже скриншот с двумя консервативными фрагментами.

выравнивание EFTU
рис. 1. выравнивание 9 белков EFTU в Jalview (окраска по консервативности). красным прямоугольником выделен выбранный фрагмент: позиции 91-102 в EFTU1_ECOLI, соответствующие мотиву NMITGAAQMDGA. для сравнения также виден высококонсервативный фрагмент GTP-связывающего кармана (позиции ~18-30, мотив TIGHVDHGKTTLT).

выбранный участок и паттерн

в выравнивании был выбран участок позиции 91-102 в EFTU1_ECOLI (мотив NMITGAAQMDGA) - 12 позиций без гэпов с максимальной консервативностью (Conservation = **** по оценке Jalview). этот участок расположен в домене связывания аминоацил-тРНК. исходный паттерн:

N-M-I-T-G-A-A-Q-M-D-G-A

поиск программой fuzzpro

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta \
        -pattern "N-M-I-T-G-A-A-Q-M-D-G-A" \
        -outfile eftu_fuzzpro.txt -auto

результаты:

паттерн находок TP FP FN примечание
N-M-I-T-G-A-A-Q-M-D-G-A 6576570133 исходный
N-M-I-T-G-A-A-Q-M-D-G-[AS] 6626620128 Mycoplasma: A→S
N-M-I-T-G-A-A-Q-M-D-[GA]-[ASG] 754754036 Magnetococcus: G вместо A
N-M-[IV]-T-G-A-A-Q-M-D-[GA]-[ASG] 769769021 лучший; Flavobacterium: I→V
все находки верные (FP = 0). FN объясняются консервативными заменами: I→V у Flavobacterium и Phocaeicola, A→S у Mycoplasma, A→G у Magnetococcus. улучшение паттерна сократило FN со 133 до 21.

2. поиск мотивов программой MEME и поиск в банке программой MAST

запуск MEME

meme eftu.fasta -protein -mod oops -nmotifs 3 \
     -minw 8 -maxw 15 -oc meme_out

нашлось три мотива, все присутствуют во всех 9 белках:

мотив консенсус позиция в EFTU1_ECOLI E-value связь с паттерном
MEME-1 RHTPFFSNYRPQFYF ~320 6.4e-094 нет пересечения
MEME-2 HVDCPGHADYVKNMI ~79 5.9e-091 перекрывается: конец мотива (KNMI) входит в наш участок (NMITG...)
MEME-3 GPMPQTREHILLARQ ~111 3.9e-076 нет пересечения

ссылка на результаты MEME: meme_out/meme.html

поиск программой MAST

mast meme_out/meme.html /P/y24/term4/bacteria-sw.fasta \
     -oc mast_out -mt 0.0001

ссылка на результаты MAST: mast_out/mast.html

всего найдено 816 последовательностей с E-value < 10.

метод находок TP FP FN
fuzzpro (лучший паттерн) 769769021
MAST (3 мотива) 816785315
MAST почти не пропускает EFTU (FN = 5), но даёт 31 лишнюю находку. это SELB, CYSN, NODQ, IF2 - тоже GTP-связывающие белки из суперсемейства TRAFAC, у них тот же GTPase-домен. fuzzpro специфичнее (FP = 0), но менее чувствителен.

3. поиск последовательности Шайна-Дальгарно в геноме

геном

геном Halobellus ramosii (= Halobellus inordinatus), штамм DSM 26177, accession NZ_CP101825.1. длина 2 612 640 нт, GC 64.9%. в геноме 2619 CDS.

последовательность Шайна-Дальгарно - это участок мРНК, комплементарный 3'-концу 16S рРНК, расположенный за 5-20 нт до старт-кодона. паттерн: AGGAG.

поиск программой fuzznuc

fuzznuc -sequence halobellus_chr.fasta -pattern "AGGAG" \
        -outfile sd_forward.txt -auto

fuzznuc -sequence halobellus_chr.fasta -pattern "AGGAG" \
        -complement Y -outfile sd_reverse.txt -auto
цепь паттерн находок (наблюдаемо) ожидаемо случайно z-статистика
прямая AGGAG 3 660 2 736 17.66
обратная CTCCT 7 403 2 760 88.38
суммарно 11 063 5 496 75.08

статистическая проверка

ожидаемое число находок посчитано по частотам нуклеотидов: p(A) = 0.175, p(C) = 0.325, p(G) = 0.324, p(T) = 0.175.

P(AGGAG) = p(A) × p(G) × p(G) × p(A) × p(G) = 0.175² × 0.324³ ≈ 0.001047
N_ожид = 2 612 640 × 0.001047 ≈ 2736 (прямая цепь)

z-статистика (предполагаем пуассоновское распределение):

z = (N_набл − N_ожид) / √N_ожид = (3660 − 2736) / √2736 ≈ 17.66
нулевая гипотеза о случайном распределении отвергается: z = 17.66 >> 1.96. находок достоверно больше чем случайно.

правильное расположение относительно CDS

с помощью скрипта на Python для каждой находки ПШД было проверено, расположен ли старт-кодон какого-либо CDS на расстоянии 5-20 нт.

цепь всего находок в правильной позиции %
прямая 3 660 43 1.2%
обратная 7 403 74 1.0%
суммарно 11 063 117 1.1%
правильно расположенные ПШД найдены у 117 из 2619 CDS (4.5% генов). низкий процент объясняется двумя причинами: во-первых, паттерн AGGAG короткий и встречается часто случайно (~2736 раз на прямой цепи ожидалось случайно); во-вторых, у архей (в том числе у галоархей) последовательность Шайна-Дальгарно менее консервативна и менее обязательна, чем у бактерий, - часть генов транслируется без классической ПШД, что согласуется с полученными данными.