В отсутсвии 5' кэпа +РНК вирусы растений имеют определенные элементы в своем 3' UTR для привлечения факторов инициации трансляции и рибосом. Среди этих эелементов - 3'-независимых энхансеров трансляции (3' CITEs) - наиболее хорошо изученным является BTE (Barley yellow dwarf virus-like element). Он характеризуется наличием 17-ти нуклеотидной консервативной последовательности: GGAUCCUGGgAaACAGG, которая участвует в образовании сложной шпильки. BTE имеет сильное сродство к трансляционному фактору инициации eIF4G, чего достаточно для начала трансляции даже в отсутсвии фактора eIF4E.
Источник: Simon AE, Miller WA. 3' cap-independent translation enhancers of plant viruses. Annu Rev Microbiol. 2013;67:21-42. doi: 10.1146/annurev-micro-092412-155609. Epub 2013 May 13. PMID: 23682606; PMCID: PMC4034384.
В данном задании требовалось построить PWM для одного из предложенных сигналов, заданного выравниванием нуклеотидных последовательностей, и оценить результаты поиска по полученной матрице новых сайтов. Я решила работать с последовательностью Козак в геноме человека. Последовательность Козак – это эукариотический сигнал начала трасляции. Она включает в себя 4-6 нуклеотидов, предшествующих старт-кодону, и 1-2 нуклеотида после старт-кодона.
Для выполнения задания использовался скрипт Муравьева Г. С. Данный скрипт принимает на вход файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются следующие файлы:
kozak-learn.fasta, kozak-test.fasta и pseudokozak1.fasta: файлы с последовательностями для обучения, тестирования и негативного контроля соответственно
result.csv: позиционная весовая матрица с псевдоттсчетами (PWM), построенная на материале обучения
ic.csv: матрица информационного содержания IC(b,j) для выравнивания из материала обучения
hist.svg и hist.png: изображения гистограммы весов
check3.csv таблица результатов проверки
В результате работы скрипта получено было 500 последовательностей для обучения, 500 последовательностей для тестирования и 500 – для отрицательного контроля. На материале обучения построена следующая матрица:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.27 | -0.24 | -0.42 | -0.16 | 0.37 | 0.14 | -0.34 | 1.22 | -6.6 | -6.6 | -0.23 | -0.1 | -0.38 |
T | -0.38 | -0.38 | -0.19 | -0.85 | -1.16 | -0.77 | -1 | -6.6 | 1.22 | -6.6 | -0.71 | -0.43 | -0.32 |
G | 0.16 | 0.47 | 0.27 | 0.33 | 0.52 | -0.06 | 0.16 | -6.24 | -6.24 | 1.58 | 0.79 | -0.06 | 0.51 |
C | 0.49 | 0.15 | 0.36 | 0.5 | -0.41 | 0.49 | 0.77 | -6.24 | -6.24 | -6.24 | -0.17 | 0.54 | 0.18 |
На основе полученной матрицы был опредеден вес каждой последовательности и построенная гистограмма распределения весов.
На основе полученной гистограммы был определён порог веса, выше которого находка принимается за првильную (порог = 4) и построена таблица результатов проверки:
Обучение | Положительный контроль | Отрицательный контроль | |
---|---|---|---|
Cигнал(+) | 371 (74.2%) | 385 (77.0%) | 156 (31.2%) |
Cигнал(-) | 129 (25.8%) | 115 (23.0%) | 344 (68.8%) |
Далее была получена матрица информационного содержания:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.09 | -0.08 | -0.12 | -0.06 | 0.23 | 0.07 | -0.1 | 1.76 | 0 | 0 | -0.08 | -0.04 | -0.11 |
T | -0.11 | -0.11 | -0.07 | -0.15 | -0.15 | -0.15 | -0.16 | 0 | 1.76 | 0 | -0.15 | -0.12 | -0.1 |
G | 0.05 | 0.22 | 0.1 | 0.14 | 0.26 | -0.02 | 0.05 | 0 | 0 | 2.29 | 0.51 | -0.02 | 0.25 |
C | 0.24 | 0.05 | 0.15 | 0.24 | -0.08 | 0.24 | 0.49 | 0 | 0 | 0 | -0.04 | 0.27 | 0.06 |
IC(j) | 0.09 | 0.08 | 0.07 | 0.17 | 0.25 | 0.13 | 0.28 | 1.76 | 1.76 | 2.29 | 0.24 | 0.09 | 0.1 |
Затем с использованием программы WebLogo 3 было простоено LOGO:
Как видно на гистограмме 1 распределения достаточно сильно перекрываются из-за чего вероятности ошибок I-го и II-го рода велики ((31.2% и 23.0%).
Для выполнения данного задания была использована референсная сборка генома Escherichia coli str. K-12 substr. MG1655 (GCF_000005845.2) и использован скрипт Муравьева Г. С.. Результат работы скрипта: GAATTTC_out.txt