Поиск сайтов связывания транскрипционного фактора через программу МЕМЕ

В рамках данной работы с помощью программы МЕМЕ, установленной на kodomo, был проведён поиск сайта связывания транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий из прошлого практикума. Была рассмотрена бактерия Haemophilus influenzae

Работа с базой данных Uniprot

Был составлен запрос:
keyword:"purine biosynthesis" organism:"haemophilus influenzae"

По результатам поиска было найдено 295 находки, 261 из которых значились в секции 'Unreviewed', и только 34 под гиперссылкой "Reviewed" подходили для дальнейего этапа работы. Среди популярных организмов значились мнемоники HAEIN (16), HAEI8 (16), HAEIE (6), HAEIG (15), HAEI1 (16), в скобках - количество записей Swiss-Prot, аннотированных как необходимые нам. Выбран был первый штамм, информацию, касающуюся данной находки со страницы Uniprot, смотрите в таблице ниже:

Таблица 1. Информация о выбранном штамме
Uniprot-мнемоникаНаименование штамма
HAEINHaemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) [71421]

Далее из 16 белков были отобраны нижележащие девять, первыми найденные в записи полного генома, список выбранных белков представлен в выдаче Uniprot, столбцы слева направо - идентификатор записи, мнемоника UniprotKB, отметка reviewed, имя белка, имя гена, организм - во всех случаях один, и длина:

Рисунок 1 Иллюстрация подходящей выдачи с сайта Uniprot

Поиск мотивов через ememe

Для каждого из генов выбранных белков в скачанной записи EMBL AC L42023.1были записаны координаты Upstream-региона из 100 нуклеотидов поиском в EMBL необходимой части - по координатам из файла EMBL.

Таблица 2. Информация о генах апстримов.
ИдентификаторМнемоникаГенКоординаты генаКоординаты апстрима
P45283PURA_HAEINpurA1695071..16963691694971-1695070
P43847PUR4_HAEINpurL812967..816929812867-812966
P44334IMDH_HAEINguaB248948..250414248848-248947
P44313FOLD_HAEINfolD640075..640923639975-640074
P43854PUR1_HAEINpurF1273386..12749031273286-1273385
P43850PURK_HAEINpurK1683529..16846171683429-1683528
P44335GUAA_HAEINguaA251125..252696251025-251124
P43845PUR2_HAEINpurD941550..942839941450-941549
P44797PUR8_HAEINpurB680324..681694680224-680323

Все апстрим последовательности были сохранены в файле al.fasta Программа, запущенная далее на сервере kodomo:
ememe -dataset all.fasta -outd align = 'center' ir pr4 -nmotifs 3 -revcomp Y
Выдача той была сохранена в папке pr4, которая, в том числе, содержит html-страницу выдачи meme

Результаты

Таблица 3. Три мотива из выдачи html
В таблице 3 так же можно наглядно проналюдать распределение по цепям.
Из-за столь малой выборки, мотивы, покрывающие 8/9 и 7/9(третий) последовательностей можно считать консервативными.
Таблица 4. LOGO's
Logo первого мотиваLogo второго мотиваLogo третьего мотива

Ниже вы можете видеть обощённые данные выдачи по находкам, в данном случае, нас интересует завышенные значения E-value, которые свидетельствуют о наших мотивах, как о не очень подходящих.
  1. MOTIF 1 width = 9 sites = 8 llr = 75 E-value = 7.2e-001
  2. MOTIF 2 width = 8 sites = 8 llr = 64 E-value = 7.9e+002
  3. MOTIF 3 width = 11 sites = 7 llr = 70 E-value = 8.7e+002

Во всех последовательностях так или иначе представлены мотивы, но присутствует в каждой суммарно от одного до трёх:

  1. fold, purA, purB, purF, purL, guaA - 3 раза
  2. purK, purD - 2 раза
  3. guaB - 1 раз

Помимо этого, программа в поле "SUMMARY OF MOTIFS" выдала общее расположение мотивов по цепям - то, о чём мы говорили выше.

Рисунок 2. Расположения описанных в Таблице 3 сайтов по цепям нитей ДНК

Сравнение с LOGO сайта связывания пуринового рецептора purR E.coli

Для данного сравнения в базе Uniprot был найден идентификатор пуринового репрессора E.coli PURR_ECOLI гена PurA. На сайте NCBI было найдено несколько подходящих статей про регулоны PurR: Ожидаемо, мотивы из данных статей в сравнении с нашими не оправдали себя, так как найденные нами мотивы короче, к тому же, паттерны их даже частично не совпадают с паттернами описанных в статьях участков. Для сравнения привожу картинки:
Таблица 5. LOGO из статей
LOGO из первой статьи LOGO из второй статьи

Анализ мотивов с помощью программы emast

Далее был проведён поиск подходящих мотивов с помощью программы emast, установленной на kodomo. Для достижения успеха значения e-value для мотивов сразу были выставлены не превышающими "хорошего" 0,001:
solera@kodomo:~/public_html/term4/pr4$ emast -mfile pr4/meme.txt
Warning: File /usr/share/EMBOSS/acd/emast.acd line 163: Qualifier 'b' matches start of known 'bfile'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 163: Qualifier 'b' matches start of known 'best'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 163: Qualifier 'b' matches start of known 'brief'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 199: Qualifier 'c' matches start of known 'comp'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 218: Qualifier 'w' matches start of known 'warning'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 232: Qualifier 'mf' matches start of known 'mfile'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 239: Qualifier 'df' matches start of known 'dfile'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 259: Qualifier 'm' matches start of known 'mfile'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 259: Qualifier 'm' matches start of known 'mt'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 259: Qualifier 'm' matches start of known 'mf'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 259: Qualifier 'm' matches start of known 'minseqs'
Warning: File /usr/share/EMBOSS/acd/emast.acd line 259: Qualifier 'm' matches start of known 'mev'
Motif detection
Print results for sequences with E-value [10]: 0.001
Show motif matches with p-value < mt [0.0001]:
MAST program output file [meme.emast]: emast.html
Рисунок 3 Найденные emast мотивы.

Программа обнаружила меньшее количество мотивов, но все они присутствуют в наших upstream регионах и определены emast, как достоверно-хорошие. С полной выдачей emast можно ознакомиться по этой ссылке. Особое внимание предлагаю обратить на параграф SECTION III: ANNOTATED SEQUENCES. В том представлены последовательности изображённых на Рисунке 3 мотивы с p-value находок и поштучным присутствием необходимых нуклеотидов в мотиве.


Вернуться назад

На главную страницу


©Solonovich Vera,2017