Практикум 6.

Сигналы и мотивы

joke

Задание 2. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов

Таблица с матрицей

Задание 4.

Для выполнения этого задания я выбрала геном короновируса воробья (AC: NC_016992) Sparrow coronavirus HKU17 С NCBI я взяла upstream последовательности генов поздних белков и orf1ab, и занесла данные в табл.1. Upstream я выбирала таким образом, чтобы было вероятно найти в ней CS, т.е. от -100н и до -1н от начала гена.
Таблица 1
Ген Координата начала Координата конца Upstream
orf1ab 520 19352 0..519
S 19334 22954 19234..19333
E 22948 23196 22848..22947
M 23189 23842 23089..23188
NS6 23842 24129 23742..23841
N 24150 25178 24050..24149
NS7a 24244 24846 24144..24243
NS7b 25189 25623 25089..25188
NS7c 25539 25751 25439..25538
После этого я создала fasta-файл с последовательностям upstream (команды: 'seqret -sequence Sparrow_coronavirusHKU17_cg.fasta -sbegin * -send * -out *.fasta' и ' cat *.fasta > pr6.fasta')
Далее с помощью сервиса MEME я осуществила поиск мотивов в полученных последовательностям. С первого раза у меня получилось найти мотив, который присутствовал в каждой upstream последовательности, и c e-value 1.4e-001. Длина этого мотифа была равна 8, но два последних нуклеотида были не очень достоверные. Вывод MEME можно посмотреть здесь. Из статьи я узнала, что для нескольких короновирусов (в основном птичьих), в число которых входит и выбранный мной была найдена "putative transcription regulatory sequence of ACACCA". Это придало мне уверенности для того, чтобы сказать, что найденный мной мотив - это как раз то, что я искала.
После этого я добавила на 5'-конце некоторых последовательностей 100н, чтобы посмотреть, не найдется ли мотивов с большей степенью консервативности. Выдача MEME здесь. Но это не привело к значительному улучшению результатов, хотя длина мотива увеличилась до 11.
1
2
3
Подводя итог, могу сказать, что, видимо, в найденном мотиве 5'-GACGCCCTGCY-3' находится CS 5'-ACACCAA-3'