практикум 8. сигналы и мотивы
1. описание мотива в белках паттерном
выбор мнемоники и белков
мнемоника: EFTU, фактор элонгации трансляции Tu. белок доставляет аминоацил-тРНК в A-сайт рибосомы в комплексе с GTP, после гидролиза уходит и регенерируется с помощью EF-Ts. это один из самых консервативных бактериальных белков, поэтому найти хороший участок без гэпов несложно.
всего в файле /P/y24/term4/bacteria-sw.fasta белков с мнемоникой EFTU: 790.
белки:
| Entry Name | UniProt ID | Организм |
|---|---|---|
| EFTU1_ECOLI | P0CE47 | Escherichia coli K12 |
| EFTU_BACSU | P33166 | Bacillus subtilis 168 |
| EFTU_THEAQ | Q01698 | Thermus aquaticus |
| EFTU_NEIMB | P64027 | Neisseria meningitidis MC58 |
| EFTU_CORGB | A4QBH0 | Corynebacterium glutamicum R |
| EFTU_LISIN | Q927I6 | Listeria innocua CLIP 11262 |
| EFTU_HELPG | B5Z8K3 | Helicobacter pylori G27 |
| EFTU_BIFLS | B7GU46 | Bifidobacterium longum infantis |
| EFTU_GLOC7 | B7K834 | Gloeothece citriformis PCC 7424 |
выравнивание
последовательности скачаны с UniProt, выровнены MUSCLE 5.2 на kodomo:
muscle -align eftu.fasta -output eftu_aligned.fasta
выравнивание смотрела в Jalview. ниже скриншот с двумя консервативными фрагментами.
NMITGAAQMDGA.
для сравнения также виден высококонсервативный фрагмент GTP-связывающего кармана
(позиции ~18-30, мотив TIGHVDHGKTTLT).
выбранный участок и паттерн
в выравнивании был выбран участок позиции 91-102 в EFTU1_ECOLI
(мотив NMITGAAQMDGA) - 12 позиций без гэпов с максимальной консервативностью
(Conservation = **** по оценке Jalview).
этот участок расположен в домене связывания аминоацил-тРНК.
исходный паттерн:
N-M-I-T-G-A-A-Q-M-D-G-A
поиск программой fuzzpro
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta \
-pattern "N-M-I-T-G-A-A-Q-M-D-G-A" \
-outfile eftu_fuzzpro.txt -auto
результаты:
| паттерн | находок | TP | FP | FN | примечание |
|---|---|---|---|---|---|
N-M-I-T-G-A-A-Q-M-D-G-A |
657 | 657 | 0 | 133 | исходный |
N-M-I-T-G-A-A-Q-M-D-G-[AS] |
662 | 662 | 0 | 128 | Mycoplasma: A→S |
N-M-I-T-G-A-A-Q-M-D-[GA]-[ASG] |
754 | 754 | 0 | 36 | Magnetococcus: G вместо A |
N-M-[IV]-T-G-A-A-Q-M-D-[GA]-[ASG] |
769 | 769 | 0 | 21 | лучший; Flavobacterium: I→V |
2. поиск мотивов программой MEME и поиск в банке программой MAST
запуск MEME
meme eftu.fasta -protein -mod oops -nmotifs 3 \
-minw 8 -maxw 15 -oc meme_out
нашлось три мотива, все присутствуют во всех 9 белках:
| мотив | консенсус | позиция в EFTU1_ECOLI | E-value | связь с паттерном |
|---|---|---|---|---|
| MEME-1 | RHTPFFSNYRPQFYF |
~320 | 6.4e-094 | нет пересечения |
| MEME-2 | HVDCPGHADYVKNMI |
~79 | 5.9e-091 | перекрывается: конец мотива (KNMI) входит в наш участок (NMITG...) |
| MEME-3 | GPMPQTREHILLARQ |
~111 | 3.9e-076 | нет пересечения |
ссылка на результаты MEME: meme_out/meme.html
поиск программой MAST
mast meme_out/meme.html /P/y24/term4/bacteria-sw.fasta \
-oc mast_out -mt 0.0001
ссылка на результаты MAST: mast_out/mast.html
всего найдено 816 последовательностей с E-value < 10.
| метод | находок | TP | FP | FN |
|---|---|---|---|---|
| fuzzpro (лучший паттерн) | 769 | 769 | 0 | 21 |
| MAST (3 мотива) | 816 | 785 | 31 | 5 |
3. поиск последовательности Шайна-Дальгарно в геноме
геном
геном Halobellus ramosii (= Halobellus inordinatus), штамм DSM 26177, accession NZ_CP101825.1. длина 2 612 640 нт, GC 64.9%. в геноме 2619 CDS.
последовательность Шайна-Дальгарно - это участок мРНК,
комплементарный 3'-концу 16S рРНК, расположенный за 5-20 нт до старт-кодона.
паттерн: AGGAG.
поиск программой fuzznuc
fuzznuc -sequence halobellus_chr.fasta -pattern "AGGAG" \
-outfile sd_forward.txt -auto
fuzznuc -sequence halobellus_chr.fasta -pattern "AGGAG" \
-complement Y -outfile sd_reverse.txt -auto
| цепь | паттерн | находок (наблюдаемо) | ожидаемо случайно | z-статистика |
|---|---|---|---|---|
| прямая | AGGAG |
3 660 | 2 736 | 17.66 |
| обратная | CTCCT |
7 403 | 2 760 | 88.38 |
| суммарно | 11 063 | 5 496 | 75.08 |
статистическая проверка
ожидаемое число находок посчитано по частотам нуклеотидов: p(A) = 0.175, p(C) = 0.325, p(G) = 0.324, p(T) = 0.175.
P(AGGAG) = p(A) × p(G) × p(G) × p(A) × p(G) = 0.175² × 0.324³ ≈ 0.001047 N_ожид = 2 612 640 × 0.001047 ≈ 2736 (прямая цепь)
z-статистика (предполагаем пуассоновское распределение):
z = (N_набл − N_ожид) / √N_ожид = (3660 − 2736) / √2736 ≈ 17.66
правильное расположение относительно CDS
с помощью скрипта на Python для каждой находки ПШД было проверено, расположен ли старт-кодон какого-либо CDS на расстоянии 5-20 нт.
| цепь | всего находок | в правильной позиции | % |
|---|---|---|---|
| прямая | 3 660 | 43 | 1.2% |
| обратная | 7 403 | 74 | 1.0% |
| суммарно | 11 063 | 117 | 1.1% |