Сигналы и мотивы

Участок Внутренней Посадки Рибосомы (IRES)

Участок внутренней посадки рибосомы (Internal Ribosome Entry Site - IRES) - регуляторный участнок мРНК эукариот и некоторых вирусов.Расположение элементов IRES часто находится в 5'UTR , но также может встречаться в другом месте мРНК. IRES связывается с 40S субъединицей рибосомы. После связывания он превликает фактор инициации трансляции, независимым от кэпа образом.[1]

Последовательность Козак в геноме человека

Последовательность Козак – это крестность ATG кодона, являющаяся сигналом старта транскрипции. Для выполения задания был использован скрипт взятый у Георгия Муравьёва . На вход вход скрипт берет файл human-genes.tsv, который содержит таблицу со списком генов человека и их положением в геноме.

Выдача скрипта:

  • kozak-learn.fasta, kozak-test.fasta и pseudokozak1.fasta – файлы с последовательностями для обучения, теста и негативного контроля соответственно
  • check.csv – таблица результатов проверки
  • ic.csv – матрица информационного содержания IC(b,j) для выравнивания по данным из kozak-learn.fasta
  • hist.svg и hist.png – изображения гистограммы весов
  • result.csv – позиционная весовая матрица с псевдоттсчетами (PWM), построенная по данным из kozak-learn.fasta

Таблица 1. Позиционная весовая матрица с псевдоттсчетами result.csv

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.32 -0.33 -0.13 -0.21 0.33 0.07 -0.57 1.22 -6.60 -6.60 -0.26 -0.07 -0.54
T -0.34 -0.64 -0.34 -0.73 -1.52 -0.69 -1.41 -6.60 1.22 -6.60 -0.87 -0.57 -0.38
G 0.35 0.61 0.19 0.27 0.63 0.04 0.43 -6.24 -6.24 1.58 0.86 -0.07 0.50
C 0.33 0.21 0.33 0.53 -0.38 0.45 0.78 -6.24 -6.24 -6.24 -0.23 0.58 0.34

Таблица 2. Результаты проверки находок при пороге веса 4 check.csv

Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 369 (73.8%) 363 (72.6%) 142 (28.4%)
Cигнал(-) 131 (26.2%) 137 (27.4%) 358 (71.6%)

Рис 1. Гистограмма распределения весов последовательностей

Таблица 3. Матрица информационного содержания.

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.1 -0.1 -0.05 -0.07 0.19 0.03 -0.14 1.76 0 0 -0.08 -0.03 -0.13
T -0.1 -0.14 -0.1 -0.15 -0.14 -0.15 -0.15 0 1.76 0 -0.16 -0.14 -0.11
G 0.15 0.33 0.07 0.1 0.35 0.01 0.19 0 0 2.29 0.61 -0.02 0.24
C 0.13 0.08 0.13 0.27 -0.08 0.21 0.51 0 0 0 -0.06 0.31 0.14
IC(j) 0.08 0.17 0.05 0.15 0.33 0.11 0.41 1.76 1.76 2.29 0.31 0.12 0.14

Была получена матрица информационного содержания и построено LOGO по файлу в сервисе Web Logo 3.

Рис 2. LOGO для последовательности Козак в геноме человека.

Число сайтов GAATTC в полном геноме одного штамма E.coli

Для выполнения 4 задания был использован скрипт, взятый у Осиповой Вероники .
Также был выбран штамм ST2747 бактерии Escherichia coli ( GCF_000599665.1) и использован полный геном .
Ожидаемое число сайтов GAATTC в геноме равно 594 (с учётом GC-состава). Реальное же количество таких сайтов в полном геноме 358. Эти данные являются статистически значимыми, так как 8.190378679871565e-26.

Список литературы

1. Lucy W. Barrett , Sue Fletcher , Steve D. Wilton. "Untranslated Gene Regions and Other Non-coding Elements".2013;DOI:10.1007/978-3-0348-0679-4_1