Поиск сигналов


1. Определить биологическую роль транскрипционного фактора в бактерии
Я буду работать с транскрипционным фактором (ТФ) бактерии Gardnerella vaginalis.
Файл с участками ДНК, с которыми связывается данный транскрипционный фактор LexA_Bifidobacteriaceae.

1.1 MEME
Сначала последовательности из исходного файла были переименованы, чтобы не было совпадающих идентефикаторов, затем - поданы на вход сервису MEME. Найденный мотив (длины 16): TCGAACATHTGTTCGA. E-value: 6.1e-592. Число сайтов: 97. PWM: motif_1_freqs.txt. На рисунке 1 приведено лого найденного мотива.

Рис. 1 Лого

Мотив покрывет всю длину исходных последовательностей. Полностью консервативных позиций немного, но посколько e-value очень низкий, можно считать найденный мотив достаточно достоверным.

1.2 TOMTOM
Сервис TOMTOM предназначен для сравнения мотивов с известными мотивами.
Похожие мотивы (т.е. мотивы с похожей PWM) были найдены в базе данных RegTransBase.
Всего было найдено 12 похожих мотивов, однако, учитывая высокие e-value, сложно судить о правдоподобноси находок. На рисунках 2 и 3 приведены 2 лучших мотива.

Рис. 2 Лого найденного мотива с e-value 2.06e-02 и исходного мотива Рис. 3 Лого найденного мотива с e-value 2.54e-02 и исходного мотива

Различия мотивов видны на рисунках 2 и 3, совпадающих позиций очень мало, есть несовпадающие консевративные нуклеотиды.
С учетом вышесказанного, найденные мотивы нельзя считать достоверными. Возможно, ошибка закрылась еще в предыдущем пункте, поскольку MEME имеет ряд недостатков и допущений: предположение о независимости позиций выравниваний и нахождение мотива без гэпов.

1.3 FIMO
С помощью программы FIMO необходимо найти мотив в геноме бактерии.
Сервис FIMO сканирует базу данных последовательностей и ищет совпадений с входным мотивом. Список находок: fimo.txt.
Поиск проводился по upstream regions, потому что именно в последовательностях до гена находятся сайты связывания с ТФ - промоторы. Таким образом, поиск по полному геному нецелесообразен. Поскольку в случае поиска в upstream regions программа FIMO выдает относительные координаты для сайтов связывания ТФ, а не абсолютные, для двух лучших находок при помощи команды featcopy из пакета emboss были извлечены абсолютные координаты участка в геноме бактерии.
Информация по лучшим находкам представлена в таблице 1.


Таблица №1
Две лучшие находки
ID белка Название гена или локуса Координаты (относительно гена) Координаты (абсолютные в геноме) Цепь p-value Совпавший участок
YP_003374227.1 recA 27..42 1058163..1058178 - 3.45e-09 GCGAACATTTGTTCGA
YP_003373808.1 lexA 96..111 560295..560310 - 6.57e-09 TCAAACATCTGTTCGA

1.4 Описание генов
Найденный белки: WP_004108332.1 (YP_003374227.1) - рекомбеназа RecA и WP_012914029.1 (YP_003373808.1) - репрессор LexA.
Белок RecA стимулирует все ключевые стадии гомологичной рекомбинации: спаривание ДНК, образование промежуточных структур Холидея и миграцию ветви. Кроме того RecA участвует в процессе SOS-репарации ДНК.
Транскрипционный репрессор LexA - репрессор генов SOS-ответа, кодирующих полимеразы V и IV, ингибиторы клеточного деления и ферменты, необходимые для репарации.

2. Влияние метилирования на связывание ТФ со своим сайтом
2.1 Fuzznuc
Для поиска паттернов в заданной последовательности использовалась программа fuzznuc пакета EMBOSS. С ее помощью я искала сайты метилирования, пересекающиеся с тремя найденными мотивами (были взяты сами мотивы и участки +/- 50 нуклеотидов по сторонам от них). В участках искались последовательности из файла MT_sites.txt, содержащего сайты метилирования:
fuzznuc -sequence name.fasta -pattern @MT_sites.txt -outfile fuzz_name.out
Результаты представлены в таблице 2.

Таблица №2
Найденные программой fuzznuc сайты метилирования
Название гена/локуса Исходные координаты мотива Координаты взятого участка Длина взятого участка Число найденных совпадений Файл с мотивом Файл с результатом
recA 1058163..1058178 1058113..1058228 116 67 reca.fasta fuzz_reca.out
lexA 560295..560310 560245..560360 116 52 lexa.fasta fuzz_lexa.out

Важно отметить, что не было найдено сайтов метилирования длиной меньше четырех, что говорит о том, что искались конкретные паттерны, а не короткие совпадения.
Находок довольно много; есть сайты МТаз, пересекающиеся с сайтом связывания ТФ и даже покрывающие его больше чем наполовину: GTGAAG, GCNNNNNNNGC, ATCNNNNNNCTC и др.
Это дает основание полагать, что находки достаточно достоверны.

2.2 REBASE
Требовалось проверьте есть ли в геноме Gardnerella vaginalis 409-05 ДНК метилтрансферазы с той же специфичностью.
В базе данных REBASE был найден геном бактерии и закодированные в нем метилтрансферазы. Только для двух из них (M.Gva409ORF82P и Gva409ORF82P) известен участок узнавания: GATC. Этот сайт не был найден в наших участках, исходя из чего можно предположить, что связывание ТФ не регулируется метилированием.