Практикум 6

Для выполнения этого задания я выбрала геном короновируса воробья (AC: NC_016992) Sparrow coronavirus HKU17 С NCBI я взяла upstream последовательности генов поздних белков и orf1ab, и занесла данные в табл.1. Upstream я выбирала таким образом, чтобы было вероятно найти в ней CS, т.е. от -100н и до -1н от начала гена.

Таблица 1
Ген	Координата начала	Координата конца	Upstream
orf1ab	520	19352	0..519
S	19334	22954	19234..19333
E	22948	23196	22848..22947
M	23189	23842	23089..23188
NS6	23842	24129	23742..23841
N	24150	25178	24050..24149
NS7a	24244	24846	24144..24243
NS7b	25189	25623	25089..25188
NS7c	25539	25751	25439..25538

После этого я создала fasta-файл с последовательностям upstream (команды: 'seqret -sequence Sparrow_coronavirusHKU17_cg.fasta -sbegin * -send * -out *.fasta' и ' cat *.fasta > pr6.fasta')
Далее с помощью сервиса MEME я осуществила поиск мотивов в полученных последовательностям. С первого раза у меня получилось найти мотив, который присутствовал в каждой upstream последовательности, и c e-value 1.4e-001. Длина этого мотифа была равна 8, но два последних нуклеотида были не очень достоверные. Вывод MEME можно посмотреть здесь. Из статьи я узнала, что для нескольких короновирусов (в основном птичьих), в число которых входит и выбранный мной была найдена "putative transcription regulatory sequence of ACACCA". Это придало мне уверенности для того, чтобы сказать, что найденный мной мотив - это как раз то, что я искала.
После этого я добавила на 5'-конце некоторых последовательностей 100н, чтобы посмотреть, не найдется ли мотивов с большей степенью консервативности. Выдача MEME здесь. Но это не привело к значительному улучшению результатов, хотя длина мотива увеличилась до 11.

Подводя итог, могу сказать, что, видимо, в найденном мотиве 5'-GACGCCCTGCY-3' находится CS 5'-ACACCAA-3'

Практикум 6.

Сигналы и мотивы

Задание 2. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов

Задание 4.