MEME и FIMO

Выбор бактерии и подготовка данных

Возьму бактерию Salmonella enterica. Выбор обоснован тем, что она часто заражает птиц и крупный рогатый скот, что вызывает много боли у людей с домашним хозяйством...

  • Taxon: Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
  • NCBI RefSeq assembly:GCF_000006945.2
  • Submitted GenBank assembly: GCA_000006945.2

Скачиваю два файла: FASTA и GFF (фаста-файл с последовательностью хромосомы и его аннотация). Оба файла загружаю в Operon Mapper для того, чтобы получить список оперонов. Промотором будем считать 100 нуклеотидов до оперона. Так как Operon Mapper предоставляет функции оперонов, то по нему можно отобрать гены домашнего хозяйства по ключевым словам. В качестве негативного контроля можно использовать случайные последовательности длины 100 (чтобы длина контроля совпадала с длиной промоторов).

Скрипт, как и в прошлом практикуме, взяла у братьев наших старших (Муравьева Георгия)

Из скрипта получаем три файла:

MEME

Попробую воспользоваться и локальным МЕМЕ с кодомо, и MEME-suit

meme housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50 -maxsites 50

Описание параметров (поиск мотивов на одной цепи):

  • housekeeping.fasta - фаста-файл с последовательностями (обучающая выборка)
  • -dna - ДНК последовательность
  • -nmotifs 3 - количество мотивов для поиска
  • -minw 6 - минимальная длина мотива
  • -maxw 50 - максимальная длина 50 (дефолт)

Выдача meme: txt-формат и html-формат

Итак, МЕМЕ нашел три мотива, logo которых представлены ниже:

Мотив 1: MOTIF MDSNGCCSCCGCNGGCGSADA, width=21, E-value = 1.1e+000
Мотив 2: MOTIF AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT, width=38, E-value = 3.4e+001
Мотив 3: MOTIF AMAAAAAYGRMGAYTDSYAMHATWCMSAVWRCYRCSNCGNSCNANTCK, width=48, E-value = 1.7e+001

Я выберу для дальнейшей работы второй мотив: он как бы "средний" из всех и по длине, и по содержанию (первый мотив похож на просто GC-богатый участок). При этом стоит отметить, что E-value довольно большие(( Странно, но продолжаем работу.

FIMO

Кое-как разобравшись с локальным запуском FIMO на кодомо, я проверила второй мотив AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT на тестовой выборке и выборке отрицательного контроля.

fimo --norc -motif AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT -thresh 0.001 meme.txt promotors.fasta

fimo --norc -motif AAARBCGCVSWHVCBNCCVTTNCCGVSMKTGAAGTGAT -thresh 0.001 meme.txt negative.fasta

Среди промоторов было найдено 468 последовательностей, подходящих под мотив; среди негативного контроля - 59 последовательностей. Выдача здесь: