Сигналы

Описание выбранного сигнала

У бактерии Nesseria gonorrhoeae, возбудителя гонореи у человека, основным фактором вирулентнотсти являются белки пилины, из которых формируются пили, нужные для прикрепления на клетках хозяина и обмена генетической информацией с другими бактериями. Для избегания иммунного ответа хозяина участок, кодирующий пилины, подвергается "антигенной вариации". В ходе этого процесса реокмбинирует экспрессирующий участок pilE и "молчащими" локусами pilS. Сигналом для начала рекомбинации является G-квадруплекс (5'-G3TG3TTG3TG3), образующийся перед pilE. Предположительно, с квадруплексом pilE связывается белок RecA, игнорируя другие похожие структуры, и запускает "антигенную вариацию". С одной стороны, этот сигнал имеет выраженную физическую природу, поскольку G-квадруплекс имеет особую структуру, отличную от двойной формы ДНК. Но с другой, последовательности, которые могут формировать квадруплексы, тоже специфичны, и поэтому существует возможность вычислять этот сигнал биоинформатическими методами. Источник: https://doi.org/10.1038/315156a0

PWM для последовательности Козак человека

В данном практикуме изучалась последовательность Козак на примере генов 16 хромосомы. Интересующие последовательности длиной 13 нуклеотидов были получены при помощи скрипта temp.py (этот и следующие скрипты сделаны в коллаборации с Гуковым Борисом и Беляевым Геннадием, студентами 2 курса ФББ). Итоговое число скаченных фрагментов – 135. Фрагменты без ATG удалялись вручную. Далее были получены поcледовательности длиной 13 нуклеотидов, содержащие неинициаторный ATG кодон (134 штуки). Эту процедуру выполняет программа temp-wrong.py. Остальные задачи: построение PWM, вычисление весов последовательностей, расчет IC – выполняет weight.py.

Результаты

На основе тренинговой выборки была построена PWM:

       
      0      1      2      3      4      5      6      7      8      9     10     11     12 
A -0.485 -0.589 -0.304 -0.485 -0.018 -0.151 -0.225  1.212 -5.100 -5.100  0.153 -0.485 -0.705  
G  0.525  0.715  0.148  0.715  0.837  0.221  0.290 -4.730 -4.730  1.584  0.471 -0.217  0.471  
T -0.705 -0.837 -0.082 -2.055 -1.386 -0.837 -1.386 -5.100  1.212 -5.100 -0.989 -0.018 -0.705   
C  0.471  0.354  0.290  0.576 -0.217  0.576  0.715 -4.730 -4.730 -4.730  0.068  0.576  0.624  
      

На ее основе были посчиты веса тестовых последовательностей и последовательностей из группы отрицательного контроля. Результат отображает график ниже. Получилось, что тестовая выборка с сигналом имеет несколько больший вес, чем отрицательный контроль без сигнала.

plot

Расчитанная матрица информационного содержания (IC): ic.csv.

На основе фрагментов с сигналом (можно скачать по ссылке) было сделано LOGO, визуализирующее информационное содержание в них.

plot