У бактерии Neisseria gonorrhoeae, которая является возбудителем гонореи у человека, основным фактором вирулентнотсти являются белки пилины. Из этих белков формируются пили, нужные для прикрепления на клетках хозяина и обмена генетической информацией с другими бактериями. Для избегания иммунного ответа хозяина участок, кодирующий пилины, подвергается "антигенной вариации". В ходе этого процесса реокмбинирует экспрессирующий участок pilE и "молчащими" локусами pilS.
Сигналом для начала рекомбинации является G-квадруплекс (5'-G3TG3TTG3TG3), образующийся перед pilE. Предположительно, с квадруплексом pilE связывается белок RecA, игнорируя другие похожие структуры, и запускает "антигенную вариацию". Так как G-квадруплекс имеет особую структуру, отличную от двойной формы ДНК, этот сигнал имеет выраженную физическую природу. С другой стороны, поскольку последовательности, которые могут формировать такие квадруплексы, являются специфичными, существует возможность вычислять этот сигнал биоинформатическими методами.
Источник: https://doi.org/10.1038/315156a0
Последовательность Козак - последовательность нуклеотидов в составе молекулы мРНК эукариот, окружающая старт-кодон и важная для инициации трансляции.
Для выполнения задания использовался скрипт Георгия Муравьёва. На вход принимается файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются следующие файлы:
- kozak-learn.fasta - содержит обучающую выборку последовательностей Козак
- kozak-test.fasta - содержит тестовую выборку последовательностей Козак
- pseudokozak1.fasta - содержит последовательности негативного контроля
- result.csv - содержит позиционную весовую матрицу с псевдоотсчетами (PWM), построенную по данным из kozak-learn.fasta
- ic.csv - содержит матрицу информационного содержания IC(b,j) для выравнивания, построенную по данным из kozak-learn.fasta
- hist.svg, hist.png - изображение гистограммы весов
- check.csv - содержит таблицу результатов проверки
Была получена позиционная весовая матрица с псевдоотсчетами:
Таблица 1 Позиционная весовая матрица
На основе таблицы были рассчитаны веса последовательности и построена гистограмма распределения. Порог веса, выше которой находка может считаться правильной составил 37, в итоге была составлена таблица с результатами проверки.
Рис. 1 Гистограмма распределения весов
Таблица 2 Результаты проверки находок при пороге веса 37
Была получена матрица информационного содержания и построено LOGO сервисом WebLOGO 3.
Таблица 3 Матрица информационного содержания
Рис. 2 LOGO для последовательности Козак в геноме человека
Был использован геном штама Escherichia coli str. K-12 substr. MG1655.
В результате было найдено 646 сайтов GAATTC в геноме, но ожидаемое число таких сайтов в геноме 1097. Такое различие статистически значимо, т.к. p-value = 1.770 * 10^(-49) при биномиальном распределении.