Практикум №6

1) Описание выбранного сигнала

У бактерии Neisseria gonorrhoeae, которая является возбудителем гонореи у человека, основным фактором вирулентнотсти являются белки пилины. Из этих белков формируются пили, нужные для прикрепления на клетках хозяина и обмена генетической информацией с другими бактериями. Для избегания иммунного ответа хозяина участок, кодирующий пилины, подвергается "антигенной вариации". В ходе этого процесса реокмбинирует экспрессирующий участок pilE и "молчащими" локусами pilS.

Сигналом для начала рекомбинации является G-квадруплекс (5'-G3TG3TTG3TG3), образующийся перед pilE. Предположительно, с квадруплексом pilE связывается белок RecA, игнорируя другие похожие структуры, и запускает "антигенную вариацию". Так как G-квадруплекс имеет особую структуру, отличную от двойной формы ДНК, этот сигнал имеет выраженную физическую природу. С другой стороны, поскольку последовательности, которые могут формировать такие квадруплексы, являются специфичными, существует возможность вычислять этот сигнал биоинформатическими методами.

Источник: https://doi.org/10.1038/315156a0

2) Последовательность Козак в геноме человека

Последовательность Козак - последовательность нуклеотидов в составе молекулы мРНК эукариот, окружающая старт-кодон и важная для инициации трансляции.

Для выполнения задания использовался скрипт Георгия Муравьёва. На вход принимается файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются следующие файлы:

- kozak-learn.fasta - содержит обучающую выборку последовательностей Козак

- kozak-test.fasta - содержит тестовую выборку последовательностей Козак

- pseudokozak1.fasta - содержит последовательности негативного контроля

- result.csv - содержит позиционную весовую матрицу с псевдоотсчетами (PWM), построенную по данным из kozak-learn.fasta

- ic.csv - содержит матрицу информационного содержания IC(b,j) для выравнивания, построенную по данным из kozak-learn.fasta

- hist.svg, hist.png - изображение гистограммы весов

- check.csv - содержит таблицу результатов проверки

Была получена позиционная весовая матрица с псевдоотсчетами:

Таблица 1 Позиционная весовая матрица

pic1

На основе таблицы были рассчитаны веса последовательности и построена гистограмма распределения. Порог веса, выше которой находка может считаться правильной составил 37, в итоге была составлена таблица с результатами проверки.

pic2

Рис. 1 Гистограмма распределения весов

Таблица 2 Результаты проверки находок при пороге веса 37

pic2

3) Информационное содержание сигнала

Была получена матрица информационного содержания и построено LOGO сервисом WebLOGO 3.

Таблица 3 Матрица информационного содержания

pic2

pic2

Рис. 2 LOGO для последовательности Козак в геноме человека

4) Сайты GAATTC в геноме Escherichia coli

Был использован геном штама Escherichia coli str. K-12 substr. MG1655.

В результате было найдено 646 сайтов GAATTC в геноме, но ожидаемое число таких сайтов в геноме 1097. Такое различие статистически значимо, т.к. p-value = 1.770 * 10^(-49) при биномиальном распределении.