Практикум 6. Сигналы и мотивы

Задание 1

TATA-box

Каноническая ТАТА-последовательность ТАТААААА перед генами эукариот[2]. Сигнал адресован системе транскрипции: с TATA-box связываются TBS, который необходим всем трем РНК-полимеразам для начала транскрипции. Сигнал является высокоэффективным, так как является одним из основных факторов инциации транскрипции[2].

Задание 2

Консенсусная последовательность Козак в геноме человека

Послеовательность Козак - окрестность ATG кодона - старта транскрипции в геноме человека.

На вход в скрипт [3] Георгия Муравьёва была дана таблица human-genes.tsv с информациех о генах человека.

После запуска скрипта были получены файлы:

  • kozak-learn.fasta содержит последовательности Козак для обучения
  • kozak-test.fasta содержит последовательности Козак для теста
  • pseudokozak1.fasta содержит последовательности Козак для негативного контроля
  • result.csv содержит позиционную весовую матрицу с псевдоттсчетами, посроенную по данным из kozak-learn.fasta
  • ic.csv содержит матрицу IC, посроенную по данным из kozak-learn.fasta
  • check.csv содержит таблицу результатов проверки
  • hist.png и hist.svg содержит изображения гистограммы весов
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.26 -0.31 -0.31 -0.28 0.33 0.07 -0.41 1.22 -6.60 -6.60 -0.24 -0.08 -0.45
T -0.31 -0.62 -0.35 -0.48 -1.18 -0.77 -1.18 -6.60 1.22 -6.60 -0.66 -0.60 -0.25
G 0.21 0.59 0.25 0.25 0.64 -0.10 0.37 -6.24 -6.24 1.58 0.80 -0.09 0.47
C 0.39 0.22 0.42 0.48 -0.64 0.56 0.71 -6.24 -6.24 -6.24 -0.25 0.61 0.21
Таблица 1. Позиционная весовая матрица
Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 283 (56.6%) 282 (56.4%) 72 (14.4%)
Cигнал(-) 217 (43.4%) 218 (43.6%) 428 (85.6%)
Таблица 2.Результаты проверки находок при пороге веса 5
Рис1. Гистограмма распределения весов последовательностей

Обучение и тестирование имеют сходные распределния, в то время как негативный контроль заметно сдвинут влево. Ошибки первого и второго рода при тестировании велики (43,6% и 14,4% соответственно).

Задание 3

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.08 -0.10 -0.10 -0.09 0.20 0.03 -0.12 1.76 0.00 0.00 -0.08 -0.03 -0.12
T -0.10 -0.14 -0.10 -0.13 -0.15 -0.15 -0.15 0.00 1.76 0.00 -0.15 -0.14 -0.08
G 0.08 0.32 0.10 0.09 0.36 -0.03 0.16 0.00 0.00 2.29 0.53 -0.02 0.22
C 0.17 0.08 0.19 0.23 -0.10 0.29 0.42 0.00 0.00 0.00 -0.06 0.33 0.08
IC(j) 0.07 0.16 0.08 0.11 0.31 0.15 0.32 1.76 1.76 2.29 0.24 0.14 0.10
Таблица 3. Матрица информационного содержания.
Рис 2. LOGO для последовательности Козак в геноме человека.

Была получена матрица информационного содержания и построено LOGO по файлу в сервисе Web Logo 3.

Задание 4

Число сайтов GAATTC в полном геноме одного штамма E.coli

Для выполнения поиска сайтов GAATTC мною был написан скрипт, которому на вход был дан файл, содержащий полный геном Escherichia coli O157:H7 str. Sakai . В рузельтате было найдено 397 таких сайтов, при ожидании 668. Это отличие значимо, так как p-value = 3.8541081254219834e-30

Список литературы

  1. Лекции по основам молекулярной биологии Королева Сергея Павловича
  2. Burley SK. The TATA box binding protein. Curr Opin Struct Biol. 1996 Feb;6(1):69-75. doi: 10.1016/s0959-440x(96)80097-2. PMID: 8696975.
  3. Муравьёв Георгий, 2 курс Факультета биоинженерии и биоинформатики МГУ