== МФК "Биоинформатика" ==
=== Домашнее задание 2 ===

Это домашнее задание засчитывается, если выполнено любое из двух заданий ниже.

Если интересно - выполните оба!

 1. '''Узнайте и сообщите преподавателю сколько стоит секвенирование вашего персонального'''
  * '''генома'''
  * '''экзома'''

В письме укажите сумму, ссылку, длину прочтений и ожидаемое покрытие! По возможности, укажите отдельно стоимость самого секвенирования (результат - множество прочтений) и работу биоинформатика по картированию прочтений на геном и анализу генома.

'''Прочтение''', или рид, - последовательность фрагмента ДНК, прочтенного автоматом - секвенатором.  В зависимости от автомата бывает от 30 букв до нескольких сот и даже тысяч.

'''Покрытие.''' Для каждого нуклеотида генома вычисляется во сколько прочтений он вошел. Среднее из этих чисел называется прочтением. Поскольку в прочтенных последовательностях бывают ошибки, то чем больше покрытие, там надежнее результат секвенирования. Покрытие 30 (пишут x30) считается хорошим.

'''Геном''' - совокупность последовательностей всех ДНК (вашего) организма

'''Экзом''' - совокупность последовательностей ДНК, кодирующих белки 

 1.#2 '''С помощью программы blast2seq найдите отличия между геномами бактерий Mycoplasma capricolum и Mycoplasma mycoides. Идентификаторы этих геномов в !GeneBank такие: NC_007633 и CP001668.'''

Ваши результаты, карту локального сходства и др. данные приведите в файле Word (или из аналогичного редактора текстов) и пришлите в приложении к письму. 

Укажите (i) размеры геномов в парах нуклеотидов (п.н.) (ii) процент идентичных нуклеотидов (букв) в гомологичных участках (ii) одну длинную делецию - потерю участка в одном из геномов; если сумеете, найдите название одного гена из такого участка (т.е. соответствующий белок есть у одной бактерии и отсутствует - у другой) (iii) одну-две крупные перестройки геномов друг относительно друга. 

Задание можно выполнить разглядывая карту (если вы разобрались, что это такое) и указав примерные координаты на ней и назвав событие. Если интересно и понятно, то можно скачать табл. всех сходных участков и из нее извлечь точную информацию. См. указания. Любой способ приветствуется!

==== Указания ====

 1. Google, Yandex, mail.ru и т.п.
 2. Используйте сервис [[https://blast.ncbi.nlm.nih.gov/Blast.cgi|blast]]. Далее - по ссылке "Nucleotide blast".   
   * Поставьте галочку в окошке "Align two or more sequences". 
   * Для того, чтобы убрать случайные совпадения, в разделе Algorithm parameters измените Expect threshold с 10 до 0.0000000001. Этот параметр, обозначаемый часто через E, регулирует порог уровеня сходства последовательностей, выдаваемых в ответе. (Для знакомых с мат. статистикой: сходство двух последовательностей оценивается числом — весом;чем больше вес, тем лучше сходство; E равно математическому ожиданию числа сходных участков в двух случайных последовательностях такой же длины)
   * В каждое из двух окон положите идентификатор соответствующей последовательности
   * Нажмите кнопку BLAST; подождите
   * На странице с результатом откройте окно "Dot matrix view". Сохраните изображение карты сходства. Подпишите какой геном - по какой оси.
   * Опишите различия, пользуясь
     * картой
     * найденными участками, которые программа сочла достаточно сходными; их выравнивания - под картой
     * таблицей со списком этих участков, для скачивания которой в разделе Sequences producing significant alignments: следует поставить галочку, потом - Download, выбрать HitTable (csv), или подобной программе.  
Колонки в этой таблице такие:
||1я посл.(query)||2я посл (subject)||||1я посл.(query)||2я посл (subject)||процент совпадающих нуклеотидов||длина выравнивания||чиcло несовпадений||число букв, против которых в другой посл ничего нет||начало в 1й||конец в 1й||начало во 2й||конец в 2й||параметр сходства Expected||Вес выравнивания||
   * Для поиска в определенном участке проще всего перейти по ссылке Graphics где показана интерактивная схема генов в геноме; можно задать координаты участка, и увидеть гены в нем, получить их названия (title)