Main/mf_2017s/task2 - KodomoWiki

МФК "Биоинформатика"

Домашнее задание 2

Это домашнее задание засчитывается, если выполнено любое из двух заданий ниже.

Если интересно - выполните оба!

Узнайте и сообщите преподавателю сколько стоит секвенирование вашего персонального
- генома
- экзома

В письме укажите сумму, ссылку, длину прочтений и ожидаемое покрытие! По возможности, укажите отдельно стоимость самого секвенирования (результат - множество прочтений) и работу биоинформатика по картированию прочтений на геном и анализу генома.

Прочтение, или рид, - последовательность фрагмента ДНК, прочтенного автоматом - секвенатором. В зависимости от автомата бывает от 30 букв до нескольких сот и даже тысяч.

Покрытие. Для каждого нуклеотида генома вычисляется во сколько прочтений он вошел. Среднее из этих чисел называется прочтением. Поскольку в прочтенных последовательностях бывают ошибки, то чем больше покрытие, там надежнее результат секвенирования. Покрытие 30 (пишут x30) считается хорошим.

Геном - совокупность последовательностей всех ДНК (вашего) организма

Экзом - совокупность последовательностей ДНК, кодирующих белки

С помощью программы blast2seq найдите отличия между геномами бактерий Mycoplasma capricolum и Mycoplasma mycoides. Идентификаторы этих геномов в GeneBank такие: NC_007633 и CP001668.

Ваши результаты, карту локального сходства и др. данные приведите в файле Word (или из аналогичного редактора текстов) и пришлите в приложении к письму.

Укажите (i) размеры геномов в парах нуклеотидов (п.н.) (ii) процент идентичных нуклеотидов (букв) в гомологичных участках (ii) одну длинную делецию - потерю участка в одном из геномов; если сумеете, найдите название одного гена из такого участка (т.е. соответствующий белок есть у одной бактерии и отсутствует - у другой) (iii) одну-две крупные перестройки геномов друг относительно друга.

Задание можно выполнить разглядывая карту (если вы разобрались, что это такое) и указав примерные координаты на ней и назвав событие. Если интересно и понятно, то можно скачать табл. всех сходных участков и из нее извлечь точную информацию. См. указания. Любой способ приветствуется!

Указания

Google, Yandex, mail.ru и т.п.
Используйте сервис blast. Далее - по ссылке "Nucleotide blast".
- Поставьте галочку в окошке "Align two or more sequences".
- Для того, чтобы убрать случайные совпадения, в разделе Algorithm parameters измените Expect threshold с 10 до 0.0000000001. Этот параметр, обозначаемый часто через E, регулирует порог уровеня сходства последовательностей, выдаваемых в ответе. (Для знакомых с мат. статистикой: сходство двух последовательностей оценивается числом — весом;чем больше вес, тем лучше сходство; E равно математическому ожиданию числа сходных участков в двух случайных последовательностях такой же длины)
- В каждое из двух окон положите идентификатор соответствующей последовательности
- Нажмите кнопку BLAST; подождите
- На странице с результатом откройте окно "Dot matrix view". Сохраните изображение карты сходства. Подпишите какой геном - по какой оси.
- Опишите различия, пользуясь
  - картой
  - найденными участками, которые программа сочла достаточно сходными; их выравнивания - под картой
  - таблицей со списком этих участков, для скачивания которой в разделе Sequences producing significant alignments: следует поставить галочку, потом - Download, выбрать HitTable (csv), или подобной программе.

Колонки в этой таблице такие:

1я посл.(query)

2я посл (subject)

1я посл.(query)

2я посл (subject)

процент совпадающих нуклеотидов

длина выравнивания

чиcло несовпадений

число букв, против которых в другой посл ничего нет

начало в 1й

конец в 1й

начало во 2й

конец в 2й

параметр сходства Expected

Вес выравнивания

Для поиска в определенном участке проще всего перейти по ссылке Graphics где показана интерактивная схема генов в геноме; можно задать координаты участка, и увидеть гены в нем, получить их названия (title)

Kodomo

Пользователь

МФК "Биоинформатика"

Домашнее задание 2

Указания