Аденоассоциированный вирус является привлекательным организмом в генетике, так как способен высокоспецифично вставлять свой геном только в один участок в геноме человека - AAVS1.
AAVS1 сайт имеет длину порядка 4000 п.н. и белок репликаза/интеграза узнает его концевые инвертированные повторы аденоассоциированного вируса (размер генома 4.6 т.п.н), что позволяет точечно встроить геном в этот сайт, интеграция происходит путем негомологичной рекомбинации концов. Сигнал высокоэффективный, интеграция происходит специфично, но не у всех клеток в экспериментах.
Ссылки
Kotin, R. M., Linden, R. M., & Berns, K. I. (1992). Characterization of a preferred site on human chromosome 19q for integration of adeno-associated virus DNA by non-homologous recombination. The EMBO journal, 11(13), 5071–5078.
Ward P, Walsh CE. Targeted integration of a rAAV vector into the AAVS1 region. Virology. 2012;433(2):356-366. doi:10.1016/j.virol.2012.08.015
Для этого задания я пользовался Python. Cкрипт мне предоставил Мурзин B., за что я выражаю ему благодарность. Скрипт можно посмотреть здесь. За первоначальные данные я взял предоставленный материал, а также дополнительно была загружена последовательность 12 хромосомы и таблица координатами старт кодонов. Скрипт позволил случайным образом выбрать 100 генов человека и вырезать фрагмент 7bp до стартового ATG и 3bp после него. Из этих 100 последовательностей были выбраны 40 и для них построена матрица, тогда как остальные 60 использовались для ее оценки. GC-состав был взят из базы данных NCBI и составляет 40.8%.
Были получены последовательности окрестности ATG человека и для коронавируса в окрестностях ATG и вне их в качестве отрицательного контроля. Также веса матрицы PWM и IC. Ниже представлена матрица весов.
Nucl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,05 | 0,05 | -0,20 | -0,20 | 0,07 | -0,20 | 0,07 | 0,81 | -3,42 | -3,42 | -0,86 | -0,38 | -0,38 |
T | -0,59 | -1,22 | -0,59 | -0,59 | -0,59 | -0,86 | -0,86 | -3,42 | 0,81 | -3,42 | -1,22 | -1,81 | -0,38 |
G | -0,59 | -0,59 | -0,86 | -0,86 | -0,86 | -0,86 | -1,22 | -3,42 | -3,42 | 0,81 | 0,39 | -0,05 | -0,86 |
C | -1,22 | -0,59 | -0,59 | -0,59 | -1,22 | -0,38 | -0,59 | -3,42 | -3,42 | -3,42 | -1,22 | -0,59 | -0,59 |
Визуализация с помощью гистограмм веса для положительного и отрицательного контроля приведена ниже. Как можно увидеть медиана для старт-кодонов располагается примерно -2,5, тогда как для остальных составляет порядка -4. Таким образом, можно предположить, что ATG действительно является специфической последовательностью.
Ниже представлена матрица информационного содержания.
Nucl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 0.21 | 0,21 | 0,10 | 0.10 | 0,33 | 0,10 | 0,33 | 1,79 | 0 | 0 | -0,13 | 0,01 | 0,01 |
T | -0,07 | -0,15 | -0,07 | -0,07 | -0,07 | -0,13 | -0,13 | 0 | 1,79 | 0 | -0,15 | -0,14 | 0,01 |
G | 0,04 | 0,04 | -0,04 | -0,04 | -0,04 | -0,04 | -0,10 | 0 | 0 | 2,25 | 0,87 | 0,40 | -0,04 |
C | -0,10 | 0,04 | 0,04 | 0,04 | -0,10 | 0,14 | 0,04 | 0 | 0 | 0 | -0,10 | 0,04 | 0,04 |
По визуализации Logo можно увидеть, что наиболее сильный сигнал составляет ATG.