На главную На страницу четвёртого семестра
— — — — — — — —
Задание №1
Я взял 7-ой вариант. Сначала была найдена частота букв в выравнивании. Далее были построены матрицы с информационным содержанием отдельных букв и колонок. Итоговое информационное содержание получилось равным 10,1324.
Скачать файл с количеством нуклеотидов
Скачать файл с частотами нуклеотидов в последовательностях
Скачать файл с общими частотами нуклеотидов
Скачать программу расчёта числа нуклеотидов
Скачать программу расчёта частоты нуклеотидов
Картинка LOGO для выравнивания
Задание №2
В задании №4 практикума 6 была найдена наилучшая из имеющихся последовательностей, однако она далеко не идеальна: она мало соответствует последовательности
в статье, а также имеет очень высокий E-value и встречается всего в 2 upstream-областях. Далее используя команду fimo --norc -motif 8 meme_out_10/meme.txt
upstream.fasta, была получена таблица с данными по находкам данной последовательности:
Как можно видеть, p-value у каждой из находок достаточно низкий, так что в этих двух областях такой сигнал точно находится.
Далее для сравнения последовательностей Козак были вырезаны участки генома вируса от -10 до 10 нуклеотида каждого гена. К ним применена программа MEME:
Сравним с последовательностями Козак человека:
Как можно видеть, сходства наблюдается мало. Похожи позиции -2, где имеется малое информационное содержание всех нуклеотидов.
Для анализа других коронавирусов был выбран другой штамм того же вида, а также
близкородственный вид. Интересно, что у всех трёх коронавирусов почти идеально
совпал один из мотивов:
Скачать данные MEME по "моему" коронавирусу
Скачать данные MEME по другому штамму
Скачать данные MEME по другому виду
Возможно, на самом деле эта последовательность является мотивом, однако у первого коронавируса она имеет большое E-value и редкую встречаемость, что без
анализа других коронавирусов не давало оснований считать её наилучшим вариантом.
Данные FIMO для находок:
Данные по другому штамму.
Данные по другому виду.