Практикум 8. Сигналы и мотивы

1. Описание мотива в белках паттерном

Для выполнения задания была выбрана энолаза (Phosphopyruvate hydratase). Мнемоника Swiss-Prot: ENO. Данный фермент катализирует превращение 2-фосфоглицерата в фосфоенолпируват в ходе гликолиза. Принадлежит к семейству лиаз, а именно к гидролиазам, которые расщепляют связи углерод-кислород.

Для выравнивания использовались следующие последовательности белков: ENO_ECOLI, ENO_BURMA, ENO_NEIMA, ENO_PASMU, ENO_ROSDO, ENO_SHEDO, ENO_SERP5, ENO_PARDP

Количество белков с такой мнемоникой в файле bacteria-sw.fasta: 748

Мнемоники бактерий:

ECOLI: Escherichia coli (strain K12)

BURMA: Burkholderia mallei (strain ATCC 23344)

NEIMA: Neisseria meningitidis serogroup A / serotype 4A (strain DSM 15465 / Z2491)

PASMU: Pasteurella multocida (strain Pm70)

ROSDO: Roseobacter denitrificans (strain ATCC 33942 / OCh 114)

SHEDO: Shewanella denitrificans (strain OS217 / ATCC BAA-1090 / DSM 15013)

SERP5: Serratia proteamaculans (strain 568)

PARDP: Paracoccus denitrificans (strain Pd 1222)

Код для создания выравнивания:

seqret @eno.list eno.fasta  #eno.list - файл с идентификаторами в Swiss-Prot (sw:eno_ecoli) 
muscle -align eno.fasta -output eno-alignment.fasta  #используем fasta файл и программу muscle для выравнивания

Выравнивание представлено здесь.

Для составления паттерна был выбран консервативный участок без гэпов: позиции 369-379

Паттерн: V-[IM]-S-H-R-S-G-E-T-E-D

Поиск программой fuzzpro по этому паттерну среди всех белков бактерий из Swiss-Prot:

fuzzpro /P/y24/term4/bacteria-sw.fasta -pattern 'V-[IM]-S-H-R-S-G-E-T-E-D' eno.fuzzpro

Общее число находок: 391
Число находок с выбранной мнемоникой (ENO): 385
Число ложноположительных результатов: 6
Число ложноотрицательных результатов (ненайденные белки с выбранной мнемоникой): 748 - 385 = 363

Поскольку число ненайденных белков оказалась большим, для усиления паттерна я решила расширить его, а также попробовать найти другой консервативный участок, но, к сожалению, 391 - максимальное число находок, которого мне удалось достичь.

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Код для запуска программы MEME:

meme eno.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -o meme_output

Расшифровка опций и параметров запуска:

-protein: аминокислотные последовательности

-mod oops: по одному представителю мотива на последовательность

-nmotifs: число мотивов

-minw: минимальная длина

-maxw: максимальная длина

-o: выходная директория (output)

Результат MEME представлен здесь.

В результате анализа набора из 8 последовательностей энолаз (ENO) с помощью программы MEME было обнаружено 3 консервативных мотива в каждом белке. Мотивы имеют очень низкое E-value (в диапазоне: 10⁻⁶⁰ — 10⁻⁶⁷), что свидетельствует о высокой статистической значимости находок (вероятность случайного обнаружения подобных мотивов в случайных последовательностях очень низкая). Для каждой аминокислотной последовательности p-value в диапазоне: 10⁻⁴⁴ - 10⁻⁴⁵, что подтверждает высокую достоверность локализации мотивов в конкретных позициях этого белка.

Код для запуска программы MAST:

mast meme_output/meme.html /P/y24/term4/bacteria-sw.fasta -o mast_output

Результат MAST представлен здесь.

Число находок с E-value<10 составило 775. Порог позиционного p-value составил 0.0001. Все находки имеют низкое E-value, что подтверждает их статистическую значимость.

Общее число находок: 775
Число находок с выбранной мнемоникой (ENO): 747
Число ложноположительных результатов: 775 - 747 = 28
Число ложноотрицательных результатов (ненайденные белки с выбранной мнемоникой): 748 - 747 = 1

Таким образом, не нашелся всего 1 белок. Этот результат гораздно лучше, чем при ручном составлении мотива по выравниванию.

3. Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

В рамках данного задания использовался геном бактерии Leptospira borgpetersenii serovar Ceylonica

Последовательность Шайна - Дальгарно - это консервативный участок на мРНК прокариот (AGGAGG), находящийся перед старт-кодом (на расстоянии около 10-ти нуклеотидов). Он необходим для комплементарного взаимодействия с 16s рРНК, и, таким образом, обеспечивает правильное связывание мРНК с рибосомой.

Код для запуска программы fuzznuc:

fuzznuc ~/term1/genome/GCF_003516145.1_ASM351614v1_genomic.fna -pattern 'A-G-G-A-G-G' -complement -outfile SD_seq.outfile # complement - позволяет искать и на прямой, и на комплементарной цепи

Программа fuzznuc обнаружила 1243 участка (N_obs), соответствующих паттерну A-G-G-A-G-G (с учётом комплементарной цепи) в геноме бактерии.

Для того, чтобы найти ожидаемое число находок (N_exp) с учетом комплементарной цепи (умножение на 2) нужно: P(AGGAGG) * Length(genome) * 2

P(AGGAGG) = P(A)**2 × P(G)**4

Для нахождения этой вероятности, найдем сколько раз встречаются A и G в геноме, а потом вычислим вероятность.

A: 1 187 046
G: 807 569
Length (genome): 3 670 231 bp
P(A): 0,323
P(G): 0,220

Получаем ожидаемое число находок (N_exp): 897

Чтобы оценить достоверность отличия наблюдаемого числа находок от ожидаемого воспользуемся формулой:

  Nobs - Nexp
  
  √(Nexp)

Рассчитанное значение статистики составило 11.55. Поскольку это значение превышает критическое 1.96 для уровня значимости α=0.05, нулевая гипотеза об отсутствии различий между наблюдаемым и ожидаемым числом находок отвергается. Следовательно, наблюдаемое число участков с паттерном AGGAGG статистически значимо отличается от случайно ожидаемого.

С помощью геномной таблицы (GCF_003516145.1_ASM351614v1_feature_table.txt) и скрипта был найден процент находок, которые располагаются в правильной позиции относительно старт-кодона.

Код для запуска скрипта:

python pr8.py SD_seq.outfile ~/term1/genome/GCF_003516145.1_ASM351614v1_feature_table.txt

Было найдено 43 находки в правильном положении из 1243. Это составляет 3.5 %. Скорее всего такой низкий полученный процент можно объяснить тем, что у некоторых организмов эта последовательность может быть немного иной, а также тем, что вероятность в геноме встретить последовательность AGGAGG достаточно велика, поэтому получилось много случайных находок.