У бактерии Nesseria gonorrhoeae, возбудителя гонореи у человека, основным фактором вирулентнотсти являются белки пилины, из которых формируются пили, нужные для прикрепления на клетках хозяина и обмена генетической информацией с другими бактериями. Для избегания иммунного ответа хозяина участок, кодирующий пилины, подвергается "антигенной вариации". В ходе этого процесса реокмбинирует экспрессирующий участок pilE и "молчащими" локусами pilS. Сигналом для начала рекомбинации является G-квадруплекс (5'-G3TG3TTG3TG3), образующийся перед pilE. Предположительно, с квадруплексом pilE связывается белок RecA, игнорируя другие похожие структуры, и запускает "антигенную вариацию". С одной стороны, этот сигнал имеет выраженную физическую природу, поскольку G-квадруплекс имеет особую структуру, отличную от двойной формы ДНК. Но с другой, последовательности, которые могут формировать квадруплексы, тоже специфичны, и поэтому существует возможность вычислять этот сигнал биоинформатическими методами. Источник: https://doi.org/10.1038/315156a0
В данном практикуме изучалась последовательность Козак на примере генов 16 хромосомы. Интересующие последовательности длиной 13 нуклеотидов были получены при помощи скрипта temp.py (этот и следующие скрипты сделаны в коллаборации с Гуковым Борисом и Беляевым Геннадием, студентами 2 курса ФББ). Итоговое число скаченных фрагментов – 135. Фрагменты без ATG удалялись вручную. Далее были получены поcледовательности длиной 13 нуклеотидов, содержащие неинициаторный ATG кодон (134 штуки). Эту процедуру выполняет программа temp-wrong.py. Остальные задачи: построение PWM, вычисление весов последовательностей, расчет IC – выполняет weight.py.
На основе тренинговой выборки была построена PWM:
0 1 2 3 4 5 6 7 8 9 10 11 12 A -0.485 -0.589 -0.304 -0.485 -0.018 -0.151 -0.225 1.212 -5.100 -5.100 0.153 -0.485 -0.705 G 0.525 0.715 0.148 0.715 0.837 0.221 0.290 -4.730 -4.730 1.584 0.471 -0.217 0.471 T -0.705 -0.837 -0.082 -2.055 -1.386 -0.837 -1.386 -5.100 1.212 -5.100 -0.989 -0.018 -0.705 C 0.471 0.354 0.290 0.576 -0.217 0.576 0.715 -4.730 -4.730 -4.730 0.068 0.576 0.624
На ее основе были посчиты веса тестовых последовательностей и последовательностей из группы отрицательного контроля. Результат отображает график ниже. Получилось, что тестовая выборка с сигналом имеет несколько больший вес, чем отрицательный контроль без сигнала.
Расчитанная матрица информационного содержания (IC): ic.csv.
На основе фрагментов с сигналом (можно скачать по ссылке) было сделано LOGO, визуализирующее информационное содержание в них.