Карань Анна
студентка факультета биоинженерии и бионформатики

Поиск сигналов. Теория

Задание 1. Определение биологической роли определенного транскрипционного фактора в бактерии

Мы проводили ииследование на Mycobacterium tuberculosis H37Rv.
LexA_Myco.fasta - файл с участками ДНК, с которыми связывается данный транскрипционный фактор.
Сначала нужно с помощью программы MEME найти мотив связывания. Однако, данной программе нельзя подавать одинаковые последовательности, поэтому файл был отфильтрован с помощью скрипта meme.py, и был получен fasta файл c 57 gjcktljdfntkmyjcnzvb без повторений - single_LexA.fasta. Эта программа безумно медленная.

Рис.1 Logo сайта связывания транскрипционного фактора, полученное с помощью программы MEME.

Таблица 1. Характеристика найденного MEME сайта
E-valuePWM
1,8e-329
              [0.017544, 0.000000, 0.000000, 0.982456], 
              [0.035088, 0.947368, 0.017544, 0.000000], 
              [0.035088, 0.000000, 0.964912, 0.000000], 
              [1.000000, 0.000000, 0.000000, 0.000000], 
              [0.894737, 0.000000, 0.000000, 0.105263], 
              [0.087719, 0.877193, 0.000000, 0.035088], 
              [0.508772, 0.017544, 0.368421, 0.105263], 
              [0.122807, 0.280702, 0.280702, 0.315789], 
              [0.543860, 0.052632, 0.263158, 0.140351], 
              [0.000000, 0.000000, 0.017544, 0.982456], 
              [0.000000, 0.000000, 1.000000, 0.000000], 
              [0.035088, 0.000000, 0.000000, 0.964912], 
              [0.000000, 0.000000, 0.175439, 0.824561], 
              [0.000000, 1.000000, 0.000000, 0.000000], 
              [0.000000, 0.000000, 0.894737, 0.105263], 
              [0.771930, 0.070175, 0.140351, 0.017544] .
           

Далее полученный мотив нужно было отправить на вход программе tomtom, ищущей похожие мотивы, предсказанные для этого транскрипционного фактора в базе данных RegTransBase.

Таблица 2. Характеристика находок/лучшей находки tomtom
Число встреч мотива находки с похожей PWM в последовательностиДлина мотиваЧисло выдаваемых лучших мотивовНазвание TФ находки с похожей PWME-value
3916165Transcriptional regulator PsrA3.80e-03
PWM
              [0.486624, 0.000588, 0.000588, 0.512200], 
              [0.000691, 0.000588, 0.000588, 0.998133], 
              [0.000691, 0.026164, 0.128465, 0.844680], 
              [0.128568, 0.537673, 0.026164, 0.307596], 
              [0.998133, 0.000588, 0.000588, 0.000691], 
              [0.895831, 0.000588, 0.000588, 0.102992], 
              [0.998133, 0.000588, 0.000588, 0.000691], 
              [0.000691, 0.998031, 0.000588, 0.000691], 
              [0.640077, 0.000588, 0.358644, 0.000691], 
              [0.384322, 0.358644, 0.128465, 0.128568], 
              [0.230869, 0.358644, 0.230767, 0.179718], 
              [0.000691, 0.384220, 0.026164, 0.588926], 
              [0.000691, 0.000588, 0.998031, 0.000691], 
              [0.000691, 0.026164, 0.000588, 0.972558], 
              [0.026266, 0.000588, 0.000588, 0.972558], 
              [0.000691, 0.000588, 0.000588, 0.998133], 
              [0.282020, 0.026164, 0.563249, 0.128568], 
              [0.819105, 0.000588, 0.000588, 0.179718], 
              [0.154143, 0.230767, 0.051739, 0.563351], 
              [0.282020, 0.102890, 0.026164, 0.588926] 
           

Рис.2 Logo находки tomtom и сайта, полученного с помощью программы MEME.

В Таблице 2 находка с похожей PWM была выбрана как первая находка, т.е. с минимальным E-value. Также Таблица 2 и Рис. 2 помогают сравнить находки tomtom и сайта, найденного МЕМЕ. Во-первых, находка короче, начинается со второго нуклеотида сайта и заканчивается за 2 до конца, и есть 2 несовпадающих консервативных нуклеотида.
Далее найденный MEME мотив данного транскрипционного фактора нужно подать на вход программе FIMO с поиском по БД upstraem region, эта программа найдет данный мотив в регионах перед генами. Мотив нужно искать только в upstream region, потому что большинство транскрипционных факторов связываются с последовательностью до гена по направлению транскрипции (т.е. в upstream region).
Файл с координатами сайтов связывания ТФ - fimo_upst.txt.
Далее нужно найти координаты всех генов данной бактерии, по заданию это можно сделать с помощью команды featcopy из пакета emboss. Но в моем случае почему-то featcopy не распознавал ncRNA как feature, поэтому пришлось написать скрипт на питоне - gene_coord.py. В итоге был получен файл с координатами генов - Myco_genes.txt.
Далее необходимо найти гены, экспрессию которых может регулировать ТФ. Считается, что ТФ регулирует экспрессию ближайшего гена в той же ориентации, что и сайт. А в файле fimo_upst.txt во второй колонке уже указаны гены, экспрессию которых может регулировать ТФ, нужно отобрать из их достоверные находки. Я считала достоверными находки с q-value меньше 0,01, таких оказалось 30 (Таблица 3)

Таблица 3. Таблица найденных мотивов, полученная с помощью FIMO
# motif_idmotif_alt_id|sequence_namestartstopstrandscorep-valueq-value
1YP_006516535.1|RVBD_307486101+28.6751.73e-10 0.000165
1 YP_006514758.1|RVBD_1378c 131 146 + 28.675 1.73e-10 0.000165
1 YP_006517273.1|RVBD_3776 149 164 + 28.375 2.4e-10 0.000165
1 YP_006516535.1|RVBD_3074 86 101 - 27.7875 3.45e-10 0.000165
1 YP_006514758.1|RVBD_1378c 131 146 - 27.7875 3.45e-10 0.000165
1 YP_006516880.1|RVBD_3395A 15 30 + 27.2 7.03e-10 0.00024
1 YP_006516879.1|RVBD_3395c 53 68 - 27.2 7.03e-10 0.00024
1 YP_006516853.1|RVBD_3371 50 65 + 26.3625 1.82e-09 0.000346
1 YP_006516853.1|RVBD_3371 50 65 - 26.3625 1.82e-09 0.000346
1 YP_006516852.1|RVBD_3370c 127 142 + 26.3625 1.82e-09 0.000346
1 YP_006516852.1|RVBD_3370c 127 142 - 26.3625 1.82e-09 0.000346
1 YP_006513661.1|RVBD_0335c 17 32 - 25.9 2.03e-09 0.000346
1 YP_006513848.1|RVBD_0515 71 86 + 25.9 2.03e-09 0.000346
1 YP_006513662.1|RVBD_0336 110 125 + 25.9 2.03e-09 0.000346
1 YP_006515094.1|RVBD_1702c 550 565 - 24.875 4.86e-09 0.000771
1 YP_006515515.1|RVBD_2100 289 304 - 24.725 5.17e-09 0.000771
1 YP_006514361.1|RVBD_1000c 29 44 + 23.95 9.66e-09 0.00127
1 YP_006516163.1|RVBD_2719c 33 48 + 23.85 1.01e-08 0.00127
1 YP_006516164.2|RVBD_2720 203 218 - 23.85 1.01e-08 0.00127
1 YP_006516737.1|RVBD_3261 171 186 - 23.6375 1.14e-08 0.00128
1 YP_006516736.1|RVBD_3260c 216 231 + 23.6375 1.14e-08 0.00128
1 YP_006516181.1|RVBD_2737c 72 87 + 23.5 1.23e-08 0.00128
1 YP_006516182.1|RVBD_2737A 108 123 - 23.5 1.23e-08 0.00128
1 YP_006516164.2|RVBD_2720 70 85 - 21.9375 3.41e-08 0.00312
1 YP_006516163.1|RVBD_2719c 166 181 + 21.9375 3.41e-08 0.00312
1 YP_006516036.1|RVBD_2595 22 37 - 21.775 3.61e-08 0.00312
1 YP_006516035.1|RVBD_2594c 72 87 + 21.775 3.61e-08 0.00312
1 YP_006516737.1|RVBD_3261 171 186 + 21.65 3.81e-08 0.00312
1 YP_006516736.1|RVBD_3260c 216 231 - 21.65 3.81e-08 0.00312
1 YP_006516020.1|RVBD_2579 9 24 - 21.5125 4.06e-08 0.00312
1 YP_006516019.1|RVBD_2578c 84 99 + 21.5125 4.06e-08 0.00312

Однако FIMO дает только координаты мотива относительно гена, в регуляции которого он возможно участвует, поэтому необходимо найти абсолютные координаты генов и на их основе вычислить абсолютные координаты мотивов (Таблица 4).

Таблица 4. Координаты мотивов и генов, которые ТФ возможно регулирует (а также белки, кодируемые этими генами)
Название генаКоординаты генаКоординаты найденного мотиваФункции (описание) гена
RVBD_30743436776 34380503436675 3436690hypothetical protein
RVBD_1378c1551234 15526611551088 1551103hypothetical protein
RVBD_37764221267 42228264221267 4221118hypothetical protein
RVBD_30743436776 34380503438136 3438151hypothetical protein
RVBD_1378c1551234 15526611552792 1552807hypothetical protein
RVBD_3395A3811899 38125253811914 3811929membrane protein
RVBD_3395c3811202 38118163811869 3811884hypothetical protein
RVBD_33713785112 37864523785047 3785062diacylglycerol acyltransferase
RVBD_33713785112 37864523786502 3786517diacylglycerol acyltransferase
RVBD_3370c3781681 37849203781539 3781554DNA polymerase III alpha subunit DnaE2
RVBD_3370c3781681 37849203785047 3785062DNA polymerase III alpha subunit DnaE2
RVBD_0335c399535 400050400067 400082PE family protein PE6
RVBD_0515606554 608065606468 60648313E12 repeat family protein
RVBD_0336400192 401703400067 40008213E12 repeat family protein
RVBD_1702c1927218 19285821929132 1929147hypothetical protein
RVBD_21002358397 23600492360338 2360353hypothetical protein
RVBD_1000c1116535 11171521116491 1116506hypothetical protein
RVBD_2719c3031050 30315473031002 3031017cell wall hydrolase
RVBD_27203031798 30325083032711 3032726repressor LexA
RVBD_32613640540 36415353641706 3641721F420 biosynthesis protein FbiA
RVBD_3260c3639869 36401381639638 1639653transcriptional regulator WhiB-like WhiB2
RVBD_2737c3049062 30514343048975 3048990protein RecA
RVBD_2737A3051629 30518023051910 3051925cysteine rich protein
RVBD_27203031798 30325083032578 3032593repressor LexA
RVBD_2719c3031050 30315473030869 3030884cell wall hydrolase
RVBD_25952925502 29257472925769 2925784antitoxin VapB40
RVBD_2594c2924827 29253932924740 2924755crossover junction endodeoxyribonuclease RuvC
RVBD_32613640540 36415353640354 3640369F420 biosynthesis protein FbiA
RVBD_3260c3639869 36401383640354 3640369transcriptional regulator WhiB-like WhiB2
RVBD_25792903649 29045512904560 2904575haloalkane dehalogenase 3
RVBD_2578c2902519 29035412902420 2902435hypothetical protein

Также в Таблице 4 указаны кодируемыми этими генами белки. Функции большинства еще не определены, а вот про белки с известными функциями стоит рассказать подробнее.
1) Diacylglycerol acyltransferase относится к группе O-ацилтрансфераз, катализирует синтез триглицеридов из диацилглицерода и Ac-CoA, поэтому этот фермент необходим для образования жировой ткани.
2) DNA polymerase III alpha subunit DnaE2 - субъединица всем известной ДНК-полимеразы III, являющейся главным ферментативным комплексом, задействованным в репликации ДНК у прокариот. Оня обладает высокой процессивностью в отличие от других ДНК-полимераз прокариот.
3) Repressor LexA - транскрипционный репрессор генов SOS-ответа, кодирующих прежде всего полимеразы с высокой частотой ошибок, репарационные ферменты ДНК и ингибиторы клеточного деления. LexA фактически представляет собой двухкомпонентную регуляторную систему с RecA, которая распознает повреждение ДНК у остановившейся репликационной вилки и преобретает активную конформацию, способную связываться с LexA, что вызывает расщепление LexA - автопротеолиз.
4) Transcriptional regulator WhiB-like WhiB2 обеспечивает защиту от иммунитета хозяина.
Так что нельзя говорить об общности всех белков, в которых был найден мотив, тут и ферменты синтеза предшественника жирных кислот и клеточной стенки, а есть и ДНК-полимераза и транскрипционные фактора, можно лишь выделить некоторые группы, например, LexA и RecA, обеспечивающие SOS-ответ.

Задание 2. Проверить, может ли метилирование повлиять на связывание исследуемого ТФ со своим сайтом?

Метилирование ДНК — это модификация молекулы ДНК без изменения самой нуклеотидной последовательности ДНК, что можно рассматривать как часть эпигенетической составляющей генома.
Рассмотрим только несколько находок с самыми высокими p-value - met1, met2, met3, met4.
Программа fuzznuc пакета EMBOSS предназначена для поиска паттернов в заданной последовательности. Эта программа использовалась для поиска сайтов метилирования, пересекающихся с найденными FIMO в Задании 1 мотивами (были взяты сами мотивы и участки ± 50 нуклеотидов по бокам от них, см. файлы строкой выше). В участках искались сайты из файла MT_sites.txt, содержащего сайты метилирования:

fuzznuc -sequence metX.fasta -pattern @MT_sites.txt -outfile fuzznucX.out

В результате были получены файлы - fuzznuc1.out, fuzznuc2.out, fuzznuc3.out, fuzznuc4.out.
Замечтально то, что находок длиной меньше, чем 4 нуклеотида (а это минимальная длина паттерна метилирования) не было, т.е. программа искала конкретно именно эти паттерны, а не совпадения маленьких частей.

Таблица 5. Число находок паттернов
ИдентификаторYP_006516535.1YP_006514758.1YP_006517273.1 YP_006516879.1
Число находок185140169180

Понятно, что не все эти находки являются реальными сайтами метилтрансфераз, так как задаваемые сайты либо просто короткие, либо длинные, но с большим числом неизвестных нуклеотидов. Так что если там есть какие-то из найденных сайтов, то однозначно не все, но все равно число находок впечатляет, поэтому какие-то из них наверняка являются истинными.

Рис.3. Выдача REBASE

Рис.4. Сайты метитрансфераз генома Mycobacterium tuberculosis H37Rv

Как видно на Рис. 4 у данной бактерии один из сайтов метилтрансфераз - CTGGAG. И этот паттерн был найден программой fuzznac для нашего мотива, причем 4 раза в fuzznuc1.out: pattern221, pattern222, pattern225, pattern227. Второй сайт, присутствующий у Mycobacterium tuberculosis H37Rv по данным Rebase - это GATNNNNRTAC. Этот паттерн не был обнаружен fuzznac.
Думаю, исходя из полученных данных можно говорить о влиянии метилирования на связывание ТФ со своим сайтом.


©Карань Анна, 2015