AAVS1 - сайт 19 хромосомы для интеграции AAV вируса

Аденоассоциированный вирус является привлекательным организмом в генетике, так как способен высокоспецифично вставлять свой геном только в один участок в геноме человека - AAVS1.

AAVS1 сайт имеет длину порядка 4000 п.н. и белок репликаза/интеграза узнает его концевые инвертированные повторы аденоассоциированного вируса (размер генома 4.6 т.п.н), что позволяет точечно встроить геном в этот сайт, интеграция происходит путем негомологичной рекомбинации концов. Сигнал высокоэффективный, интеграция происходит специфично, но не у всех клеток в экспериментах.

Ссылки

Kotin, R. M., Linden, R. M., & Berns, K. I. (1992). Characterization of a preferred site on human chromosome 19q for integration of adeno-associated virus DNA by non-homologous recombination. The EMBO journal, 11(13), 5071–5078.

Ward P, Walsh CE. Targeted integration of a rAAV vector into the AAVS1 region. Virology. 2012;433(2):356-366. doi:10.1016/j.virol.2012.08.015


Построение PWM для последовательности Козак человека

Для этого задания я пользовался Python. Cкрипт мне предоставил Мурзин B., за что я выражаю ему благодарность. Скрипт можно посмотреть здесь. За первоначальные данные я взял предоставленный материал, а также дополнительно была загружена последовательность 12 хромосомы и таблица координатами старт кодонов. Скрипт позволил случайным образом выбрать 100 генов человека и вырезать фрагмент 7bp до стартового ATG и 3bp после него. Из этих 100 последовательностей были выбраны 40 и для них построена матрица, тогда как остальные 60 использовались для ее оценки. GC-состав был взят из базы данных NCBI и составляет 40.8%.

Были получены последовательности окрестности ATG человека и для коронавируса в окрестностях ATG и вне их в качестве отрицательного контроля. Также веса матрицы PWM и IC. Ниже представлена матрица весов.

Nucl 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,05 0,05 -0,20 -0,20 0,07 -0,20 0,07 0,81 -3,42 -3,42 -0,86 -0,38 -0,38
T -0,59 -1,22 -0,59 -0,59 -0,59 -0,86 -0,86 -3,42 0,81 -3,42 -1,22 -1,81 -0,38
G -0,59 -0,59 -0,86 -0,86 -0,86 -0,86 -1,22 -3,42 -3,42 0,81 0,39 -0,05 -0,86
C -1,22 -0,59 -0,59 -0,59 -1,22 -0,38 -0,59 -3,42 -3,42 -3,42 -1,22 -0,59 -0,59

Визуализация с помощью гистограмм веса для положительного и отрицательного контроля приведена ниже. Как можно увидеть медиана для старт-кодонов располагается примерно -2,5, тогда как для остальных составляет порядка -4. Таким образом, можно предположить, что ATG действительно является специфической последовательностью.

Рис 1. Гистрограммы для окрестностей старт-кодонов (слева) и для других (справа)

IC матрица

Ниже представлена матрица информационного содержания.

Nucl 1 2 3 4 5 6 7 8 9 10 11 12 13
A 0.21 0,21 0,10 0.10 0,33 0,10 0,33 1,79 0 0 -0,13 0,01 0,01
T -0,07 -0,15 -0,07 -0,07 -0,07 -0,13 -0,13 0 1,79 0 -0,15 -0,14 0,01
G 0,04 0,04 -0,04 -0,04 -0,04 -0,04 -0,10 0 0 2,25 0,87 0,40 -0,04
C -0,10 0,04 0,04 0,04 -0,10 0,14 0,04 0 0 0 -0,10 0,04 0,04

По визуализации Logo можно увидеть, что наиболее сильный сигнал составляет ATG.

Рис 2. Logo
© Руслан Нагимов, 2021