Практикум №6

Сигналы и мотивы-1

1. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов

В данном задании необходимо было построить позиционую весовую матрицу (PWM) для последовательностей Козак одного из организмов. Я выбрал Mus musculus или домовую мышь (результат).

2. Поиск сайта разрывной транскрипции sgRNA с помощью сервиса MEME

В данном задании необходимо было проанализировать геном одного из коронавирусов (Coronaviridae) и найти мотив сайта разрывной транскрипции sgRNA. Я выбрал Коронавирус Землеройки (Shrew-CoV/Tibet2014). При помощи python был создан fasta-файл с upstream участками перед белок-кодирующими генами (файл). Затем этот файл был обработан в MEME на kodomo (так как их сайт упал).

Команда:

meme shrew_cov.fasta -dna -mod zoops -nmotifs 3 -minw 6 -revcomp

Выдачу программы в текстовом виде можно увидеть по ссылке (файл).

Как видно из выдачи, нашлось 3 мотива. 3-й обладает слишком большим E-value, так что это, скорее всего, случайность. 1-й и 2-й мотивы обладают одинаковыми E-value 2.3e-001. 1-й мотив встречается в 3 из 5 последовательностях, когда 2-й встречается во всех 5. Ниже привожу визуализацию мотивов.

Рис.1. Визуализация полученных мотивов. 1-й мотив (сверху) и 2-й мотив (снизу).

Были предприняты попытки по улучшению E-value. Были изменены длины входных последовательностей, так как мотив мог лежать левее или правее, но в во всех попыткаъ получалось только хуже. В статье (ссылка), указанной на сайте NCBI, я не нашёл никаких канонических последовательностей. Исследование было направлено на массовый анализ (было проанализировано огромное количество разных вирусов), поэтому логично, что я не нашёл там последовательности для моего отдельного вируса, но и вообще никаких мотивов там не было...


Update

Во время выполнения практикума 7, были переделаны некоторые моменты и результат улучшился. Также, после обсуждения с преподавателями, было обнаружено, что мой мотив слишком длмнный, и, скорее всего, включает в себя несколько мотивов. Было решено урезать длину мотива до 12. С таким условием находки имели слишком высокое E-value, что просто неприемлемо. В качестве компромиса я поставил максимальную длину - 20. Интересно, что данный мотив можно очень хорошо обрезать до длины 12, но почему-то программа на kodomo не может найти его. Она находит этот мотив, если выставить длину 40, но тогда E-value для него будет 7.9e+001 (выдача).

Если же задать всё с теми же параметрами, но в веб-версию, то результаты будут гораздо лучше (выдача). Теперь E-value для 1-го мотива стало 2.6e-001, для 2-го - 6.9e-001, а для 3-го - 9.9e-001.

Рис.2. Новый мотив. Снизу представлена его урезанная версия (но с немного худшим E-value).


Рис.3. Локализация полученных мотивов.