ПРАКТИКУМ 7

ПОИСК ОПЕРОНОВ В ГЕНОМЕ CLOSTRIDIUM TETANI E88

Выбор последовательностей

Для поиска оперонов в геноме был выбран штамм E88 бактерии Clostridium tetani. Файл сборки: sequence.fasta. Для поиска оперонов использовался web-сервис Operon-mapper. На вход подавались:

1) Геном Clostridium tetani в формате fasta: sequence.fasta.

2) Файл с координатами ORF в формате gff: sequence.gff3.

Файл выдачи: list_of_operons. В выдачу также были включены ID COG-и и функциональная аннотация.

Далее для составления списка координат промоторов я использовал скрипт Кирилла Кузенкова.

Были взяты последовательности первых CDS оперонов. По описаниям генов были выбраны те из них, которые содержат гены домашнего хозяйства (Транскрипционные факторы, рибосомальные белки, ДНК и РНК полимеразы, белки ЭТЦ, P450, АТФ-азы). Получилось 162 последовательностей.

1) Тренировочный набор (Train.fasta).
Составлен из 60 последовательностей промоторов оперонов (фрагменты 150 пар оснований, предшествующие первым CDS).

2) Тестовый набор (Test.fasta).
Составлен из всех остальных последовательностей найденных промоторов в геноме бактерии. Получилось 1320 последовательностей.

3) Негативный контроль (Negative.fastaNegative.fasta).
Создан путён вырезания случайной последовательности длины 150 в геноме бактерии таким образом, чтобы эта последовательность не пересекалась со всеми найденными промоторами. Выборка была взята размером, равным размеру тестового набора (1320 последовательностей).

Запуск MEME

Запуск локальной версии meme осуществлялся следующей командой:

meme Train.fasta -dna -nmotifs 3 -minw 6

Были найдены три мотива, Logo которых представлены на рисунках 1, 2 и 3. Им соответствуют E-value, равные 4.4e-028, 5.4e-004, 3.2e+000 соответственно. Первым мотивом является последовательность Шайна — Дальгарно — сайт связывания рибосом на молекуле мРНК прокариот. Третий мотив не подходит под порог E-value, поэтому для дальнейшей работы был выбран 2 мотив.

Запуск FIMO

Запуск FIMO осуществлялся по следующей команде:

fimo -thresh 0.001 meme.txt Test.fasta

При пороге в 0.001 нашлось 1333 находок в 774 последовательностях. Поэтому следовало понизить порог.

При пороге в 0.0001 нашлось 167 находок в 134 последовательностях. Это говорит о малом числе ложных находок. Этот порог был выбран в качестве основного.

Затем я запустил FIMO для негативного контроля с выбранным ранее порогом с помощью следующей команды:

fimo -thresh 0.001 meme.txt Negative.fasta

При этом нашлось 48 мотивов в 33 последовательностях, что значимо меньше, чем в тестовом наборе.