Главная страница О себе ФББ МГУ

Отбор белков

Для работы взял бактерию Yersinia pestis. Поисковый запрос в Uniprot: keyword:"Purine biosynthesis [KW-0658]" organism:"yersinia pestis" AND reviewed:yes AND organism:"Yersinia pestis [632]"

Из 11 белков отобрал первые 10.

Таблица 1. Отобранные белки

ИдентификаторМнемоникаНазвание белкаНазвание гена
Q7CHW4PURT_YERPEFormate-dependent phosphoribosylglycinamide formyltransferasepurT
Q8ZIV7PURA_YERPEAdenylosuccinate synthetasepurA
Q0WD32IMDH_YERPEInosine-5'-monophosphate dehydrogenaseguaB
Q8ZCQ2PUR4_YERPEPhosphoribosylformylglycinamidine synthasepurL
Q7CJY7FOLD_YERPEBifunctional protein FolDfolD
Q8ZAR2PUR2_YERPEPhosphoribosylamine--glycine ligasepurD
Q8ZCU4GUAA_YERPEGMP synthaseguaA
Q8ZCX8PUR5_YERPEPhosphoribosylformylglycinamidine cyclo-ligasepurM
Q8ZAR3PUR9_YERPEBifunctional purine biosynthesis protein PurHpurH
Q7CIS2PURR_YERPEHTH-type transcriptional repressor PurRpurR

Таблица 2. Координаты upstream областей

Координаты генаКоординаты upstreamНазвание гена
complement(2021083..2022264)complement(2022265..2022364)purT
392314..392514392214..392313purA
complement(3205218..3206681)complement(3206682..3206781)guaB
complement(3263310..3267200)complement(3267201..3267300)purL
3151967..31528333151867..3151966folD
complement(1875886..1876788)complement(1876789..1876888)purD
complement(3203461..3205038)complement(3205039..3205138)guaA
3154864..31559073154764..3154863purM
4181118..41827074181018..4181117purH
2681035..26820602680935..2681034purR

Для генов на прямой цепи upstream область лежит до их первой координаты, для генов на обратной - после их последней координаты.

Из полного генома по полученным координатам были вырезаны последовательности. Пример команды:
descseq -seq embl::AL590842.txt:392214:392313 -name "purA" -description "" -out purA.fasta

В случае, если ген лежит на обратной цепи:
descseq -seq embl::AL590842.txt:2022265:2022364:r -name "purT" -description "" -out purT.fasta

Потом все 10 последовательностей были собраны в единый файл:
cat *.fasta >> upstreams.fasta

Ссылка

Поиск мотивов с помощью MEME

Поиск мотива производился с помощью программы MEME, установленной на kodomo. Были выбраны следующие параметры:

Команда:
ememe -dataset upstreams.fasta -outdir meme -nmotifs 3 -revcomp

Ссылка на html отчёт MEME

Первый мотив длиной 15 нуклеотидов встречается в 4 из 10 последовательностях. Несмотря на большое E-value = 8.8e+001 информационное содержание 22.6 бита. Думаю стоит поискать похожий мотив у других родственных организмов.

Второй мотив длиной 13 нуклеотидов встречается в 5 из 10 последовательностях. Имеет еще большее E-value = 9.1e+002 и меньшее информационное содержание 18.3 бита. Не считаю этот мотив достоверным.

Третий мотив длиной 19 нуклеотидов встречается в 5 из 10 последовательностях. Имеет E-value = 2.1e+002 и информационное содержание 23.8 бит. Его бы я тоже проверил, поискав в родственных организмах.


© Кирпичиков Роман, 2017