Практикумы 6. Сигналы и мотивы


Задание 1

В отсутсвии 5' кэпа +РНК вирусы растений имеют определенные элементы в своем 3' UTR для привлечения факторов инициации трансляции и рибосом. Среди этих эелементов - 3'-независимых энхансеров трансляции (3' CITEs) - наиболее хорошо изученным является BTE (Barley yellow dwarf virus-like element). Он характеризуется наличием 17-ти нуклеотидной консервативной последовательности: GGAUCCUGGgAaACAGG, которая участвует в образовании сложной шпильки. BTE имеет сильное сродство к трансляционному фактору инициации eIF4G, чего достаточно для начала трансляции даже в отсутсвии фактора eIF4E.

Источник: Simon AE, Miller WA. 3' cap-independent translation enhancers of plant viruses. Annu Rev Microbiol. 2013;67:21-42. doi: 10.1146/annurev-micro-092412-155609. Epub 2013 May 13. PMID: 23682606; PMCID: PMC4034384.


Задание 2

В данном задании требовалось построить PWM для одного из предложенных сигналов, заданного выравниванием нуклеотидных последовательностей, и оценить результаты поиска по полученной матрице новых сайтов. Я решила работать с последовательностью Козак в геноме человека. Последовательность Козак – это эукариотический сигнал начала трасляции. Она включает в себя 4-6 нуклеотидов, предшествующих старт-кодону, и 1-2 нуклеотида после старт-кодона.

Для выполнения задания использовался скрипт Муравьева Г. С. Данный скрипт принимает на вход файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются следующие файлы:

kozak-learn.fasta, kozak-test.fasta и pseudokozak1.fasta: файлы с последовательностями для обучения, тестирования и негативного контроля соответственно

result.csv: позиционная весовая матрица с псевдоттсчетами (PWM), построенная на материале обучения

ic.csv: матрица информационного содержания IC(b,j) для выравнивания из материала обучения

hist.svg и hist.png: изображения гистограммы весов

check3.csv таблица результатов проверки

В результате работы скрипта получено было 500 последовательностей для обучения, 500 последовательностей для тестирования и 500 – для отрицательного контроля. На материале обучения построена следующая матрица:

Таблица 1. Позиционная весовая матрица.
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.27 -0.24 -0.42 -0.16 0.37 0.14 -0.34 1.22 -6.6 -6.6 -0.23 -0.1 -0.38
T -0.38 -0.38 -0.19 -0.85 -1.16 -0.77 -1 -6.6 1.22 -6.6 -0.71 -0.43 -0.32
G 0.16 0.47 0.27 0.33 0.52 -0.06 0.16 -6.24 -6.24 1.58 0.79 -0.06 0.51
C 0.49 0.15 0.36 0.5 -0.41 0.49 0.77 -6.24 -6.24 -6.24 -0.17 0.54 0.18

На основе полученной матрицы был опредеден вес каждой последовательности и построенная гистограмма распределения весов.

Рисунок 1. Гистограмма распределения весов последовательностей

На основе полученной гистограммы был определён порог веса, выше которого находка принимается за првильную (порог = 4) и построена таблица результатов проверки:

Таблица 2. Результаты проверки
  Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 371 (74.2%) 385 (77.0%) 156 (31.2%)
Cигнал(-) 129 (25.8%) 115 (23.0%) 344 (68.8%)

Задание 3

Далее была получена матрица информационного содержания:

Таблица 3. Матрица информационного содержания
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.09 -0.08 -0.12 -0.06 0.23 0.07 -0.1 1.76 0 0 -0.08 -0.04 -0.11
T -0.11 -0.11 -0.07 -0.15 -0.15 -0.15 -0.16 0 1.76 0 -0.15 -0.12 -0.1
G 0.05 0.22 0.1 0.14 0.26 -0.02 0.05 0 0 2.29 0.51 -0.02 0.25
C 0.24 0.05 0.15 0.24 -0.08 0.24 0.49 0 0 0 -0.04 0.27 0.06
IC(j) 0.09 0.08 0.07 0.17 0.25 0.13 0.28 1.76 1.76 2.29 0.24 0.09 0.1

Затем с использованием программы WebLogo 3 было простоено LOGO:

Рисунок 2. LOGO для последовательности Козак в геноме человека

Как видно на гистограмме 1 распределения достаточно сильно перекрываются из-за чего вероятности ошибок I-го и II-го рода велики ((31.2% и 23.0%).



Задание 4

Для выполнения данного задания была использована референсная сборка генома Escherichia coli str. K-12 substr. MG1655 (GCF_000005845.2) и использован скрипт Муравьева Г. С.. Результат работы скрипта: GAATTTC_out.txt