Учебная страница курса биоинформатики,
год поступления 2020
3 апреля 2022
Уменьшаю объём данных, достаточных для выполнения заданий 6.2:
- не менее 10 генов для построения PWM и не менее 5и генов для проверки
и 6.3:
- информационной содержание считать но всем использованным данным (как и было)
Выполнение задания на большем объёме будет учтено в оценке.
ААл
Задание 6
Отчёт по этому заданию выкладывается на сайт со ссылкой со страницы семестра. Срок без потери баллов — утро 25 марта 2022. Срок со штрафом 0,5 балла — 1 апреля 2021.
1. Кратко опишите один интересный сигнал, закодированный в геноме
В описании укажите:
- В чем состоит сигнал
- Кому адресован
- Предназначение - как должен реагировать адресат
- Эффективность сигнала:
- высокоэффективен если (почти) каждый раз адресат реагирует на сигнал
- низко эффективен если адресат не всегда реагирует на сигнал
- Любые использованные источники:
- может сталкивались в курсовой или других мол.-биол. активностях своих или знакомых
- литература и интернет
Что оценивается:
- понятность, логичность, простота и краткость описания;
- интересность, необычность сигнала или его кодировки.
2. Постройте и проверьте позиционную весовую матрицу (PWM) для последовательности Козак человека и проверьте её
Материал для выполнения задания ( окрестности инициаторного кодона ATG генов белков человека) делится на две часть. (1) Материал обучения. На этом материале вычисляется матрица PWM. (2) Материал для тестирования. На этом материале для каждого гена вычисляется вес окрестности ATG относительно построенной (в п.(1) ) PWM. Если вес большой по сравнению с весами на материале обучения, то считаем, что последовательность Козак найдена. Порог веса выбираете самостоятельно. Размер материала для обучения и тестирования выбираете самостоятельно. Сначала я сильно задрал, написал 40 и 60. Потом испугался, что если делать вручную, то это много. И снизил очень (см. сверху) - 10 и 5. Это абсолютный минимум.
- Постройте PWM
- Выберите 100 (?) генов из генома [не менее 30 и не более 100]
- Вырежьте фрагменты (7 нуклеотидов до старта трансляции ATG) + ATG + 3 нук. после ATG. Итого фрагмент длины 13 нукл. Внимательно отнеситесь к тому, с какой цепочки скачиваете!
- Разделите данные на две части, меньшую обучение 40 генов (если 100) и тест 60 генов.
- Составьте из фрагментов из материала обучения «выравнивание» без гэпов (все ATG друг под другом)
- Постройте PWM (cм. презентацию)
- Вычислите веса построенной PWM для тестовой выборки фрагментов.
Вариант 1 в геноме SARS-CoV-2
- положительный контроль – старт сайты ATG для генов SARS-CoV-2;- их 11, полипротеин и 10 поздних генов. Координата найдете в записи с геном в формате .gb (ссылка есть)
- Отрицательный контроль – все остальные ATG в геноме (или часть из них), кроме отобранных. Для них нет никаких оснований ожидать высоко веса PWM для посл-ти Козак.
Дан геном SARS-CoV-2 и координаты всех ATG, см ссылки из задания.
Вариант 2 * положительный контроль тестовое множество генов человека * отрицательный отберите сами ATG, которые не являются стартами трансляции, т.е. лежат вне кодиующей последовательности или наоборот лежат внутри гена.
- Сравните распределения весов для положительного и отрицательного контроля и сделайте выводы.
Обязательно посмотрите в подсказки, это облегчит вам жизнь (MV).
Для выбора генов человека можно использовать скачанные мной и отфильтрованные таблицы по ссылкам ниже. * Отобрал только гены белков с которыми по информации из таблицы всё в порядке. * Из изоформ с одинаковыми координатами старт кодона ATG оставил одну.
[ nr таблица генов белков человека, tsv формат ] [ та же таблица в формате Excel .xlsx ]
Для Теста PWM последовательности Козак на геноме коронавируса у меня в компьютере нашлись следующие полезные данные
SARS-CoV-2_reference_genome
[ Геном в формате genbank .gb ] [ Геном в формате fasta ]
В формате .gb найдёте координаты стартового ATG полипротеина и всех 10и поздних генов - тех, у которых ATG должен узнаваться РНК-полимеразой как старт кодон.
SARS-CoV-2_reference_genome, координаты всех сайтов ATG.
[ Таблица ВСЕХ сайтов ATG в геноме ]
Все или часть ATG, которые не вначале кодирующей последовательности белка могу служить отрицательным контролем. Раз они не служат как старт трансляции, то ожидается что их вес относительно матрицы PWM для последовательности Козак будет ниже, чем у тех, которые являются старт кодонами синтеза белка.
3. Вычислите информационное содержание сигнала старта трансляции - последовательности Козак из задания 2., и постройте Logo
На выходе нужно получить 1) матрицу информационного содержания IC(b,j) для выравнивания из материала обучения - по которому стоили PWM. См Лекцию. 2) LOGO можно построить используя сервис WebLOGO 3. Ссылка стоит в подсказках.