== МФК "Биоинформатика" == === Домашнее задание 2 === Это домашнее задание засчитывается, если выполнено любое из двух заданий ниже. Если интересно - выполните оба! 1. '''Узнайте и сообщите преподавателю сколько стоит секвенирование вашего персонального''' * '''генома''' * '''экзома''' В письме укажите сумму, ссылку, длину прочтений и ожидаемое покрытие! По возможности, укажите отдельно стоимость самого секвенирования (результат - множество прочтений) и работу биоинформатика по картированию прочтений на геном и анализу генома. '''Прочтение''', или рид, - последовательность фрагмента ДНК, прочтенного автоматом - секвенатором. В зависимости от автомата бывает от 30 букв до нескольких сот и даже тысяч. '''Покрытие.''' Для каждого нуклеотида генома вычисляется во сколько прочтений он вошел. Среднее из этих чисел называется прочтением. Поскольку в прочтенных последовательностях бывают ошибки, то чем больше покрытие, там надежнее результат секвенирования. Покрытие 30 (пишут x30) считается хорошим. '''Геном''' - совокупность последовательностей всех ДНК (вашего) организма '''Экзом''' - совокупность последовательностей ДНК, кодирующих белки 1.#2 '''С помощью программы blast2seq найдите отличия между геномами бактерий Mycoplasma capricolum и Mycoplasma mycoides. Идентификаторы этих геномов в !GeneBank такие: NC_007633 и CP001668.''' Ваши результаты, карту локального сходства и др. данные приведите в файле Word (или из аналогичного редактора текстов) и пришлите в приложении к письму. Укажите (i) размеры геномов в парах нуклеотидов (п.н.) (ii) процент идентичных нуклеотидов (букв) в гомологичных участках (ii) одну длинную делецию - потерю участка в одном из геномов; если сумеете, найдите название одного гена из такого участка (т.е. соответствующий белок есть у одной бактерии и отсутствует - у другой) (iii) одну-две крупные перестройки геномов друг относительно друга. Задание можно выполнить разглядывая карту (если вы разобрались, что это такое) и указав примерные координаты на ней и назвав событие. Если интересно и понятно, то можно скачать табл. всех сходных участков и из нее извлечь точную информацию. См. указания. Любой способ приветствуется! ==== Указания ==== 1. Google, Yandex, mail.ru и т.п. 2. Используйте сервис [[https://blast.ncbi.nlm.nih.gov/Blast.cgi|blast]]. Далее - по ссылке "Nucleotide blast". * Поставьте галочку в окошке "Align two or more sequences". * Для того, чтобы убрать случайные совпадения, в разделе Algorithm parameters измените Expect threshold с 10 до 0.0000000001. Этот параметр, обозначаемый часто через E, регулирует порог уровеня сходства последовательностей, выдаваемых в ответе. (Для знакомых с мат. статистикой: сходство двух последовательностей оценивается числом — весом;чем больше вес, тем лучше сходство; E равно математическому ожиданию числа сходных участков в двух случайных последовательностях такой же длины) * В каждое из двух окон положите идентификатор соответствующей последовательности * Нажмите кнопку BLAST; подождите * На странице с результатом откройте окно "Dot matrix view". Сохраните изображение карты сходства. Подпишите какой геном - по какой оси. * Опишите различия, пользуясь * картой * найденными участками, которые программа сочла достаточно сходными; их выравнивания - под картой * таблицей со списком этих участков, для скачивания которой в разделе Sequences producing significant alignments: следует поставить галочку, потом - Download, выбрать HitTable (csv), или подобной программе. Колонки в этой таблице такие: ||1я посл.(query)||2я посл (subject)||||1я посл.(query)||2я посл (subject)||процент совпадающих нуклеотидов||длина выравнивания||чиcло несовпадений||число букв, против которых в другой посл ничего нет||начало в 1й||конец в 1й||начало во 2й||конец в 2й||параметр сходства Expected||Вес выравнивания|| * Для поиска в определенном участке проще всего перейти по ссылке Graphics где показана интерактивная схема генов в геноме; можно задать координаты участка, и увидеть гены в нем, получить их названия (title)