МФК "Биоинформатика"
Домашнее задание 2
Это домашнее задание засчитывается, если выполнено любое из двух заданий ниже.
Если интересно - выполните оба!
Узнайте и сообщите преподавателю сколько стоит секвенирование вашего персонального
генома
экзома
В письме укажите сумму, ссылку, длину прочтений и ожидаемое покрытие! По возможности, укажите отдельно стоимость самого секвенирования (результат - множество прочтений) и работу биоинформатика по картированию прочтений на геном и анализу генома.
Прочтение, или рид, - последовательность фрагмента ДНК, прочтенного автоматом - секвенатором. В зависимости от автомата бывает от 30 букв до нескольких сот и даже тысяч.
Покрытие. Для каждого нуклеотида генома вычисляется во сколько прочтений он вошел. Среднее из этих чисел называется прочтением. Поскольку в прочтенных последовательностях бывают ошибки, то чем больше покрытие, там надежнее результат секвенирования. Покрытие 30 (пишут x30) считается хорошим.
Геном - совокупность последовательностей всех ДНК (вашего) организма
Экзом - совокупность последовательностей ДНК, кодирующих белки
С помощью программы blast2seq найдите отличия между геномами бактерий Mycoplasma capricolum и Mycoplasma mycoides. Идентификаторы этих геномов в GeneBank такие: NC_007633 и CP001668.
Ваши результаты, карту локального сходства и др. данные приведите в файле Word (или из аналогичного редактора текстов) и пришлите в приложении к письму.
Укажите (i) размеры геномов в парах нуклеотидов (п.н.) (ii) процент идентичных нуклеотидов (букв) в гомологичных участках (ii) одну длинную делецию - потерю участка в одном из геномов; если сумеете, найдите название одного гена из такого участка (т.е. соответствующий белок есть у одной бактерии и отсутствует - у другой) (iii) одну-две крупные перестройки геномов друг относительно друга.
Задание можно выполнить разглядывая карту (если вы разобрались, что это такое) и указав примерные координаты на ней и назвав событие. Если интересно и понятно, то можно скачать табл. всех сходных участков и из нее извлечь точную информацию. См. указания. Любой способ приветствуется!
Указания
- Google, Yandex, mail.ru и т.п.
Используйте сервис blast. Далее - по ссылке "Nucleotide blast".
- Поставьте галочку в окошке "Align two or more sequences".
- Для того, чтобы убрать случайные совпадения, в разделе Algorithm parameters измените Expect threshold с 10 до 0.0000000001. Этот параметр, обозначаемый часто через E, регулирует порог уровеня сходства последовательностей, выдаваемых в ответе. (Для знакомых с мат. статистикой: сходство двух последовательностей оценивается числом — весом;чем больше вес, тем лучше сходство; E равно математическому ожиданию числа сходных участков в двух случайных последовательностях такой же длины)
- В каждое из двух окон положите идентификатор соответствующей последовательности
- Нажмите кнопку BLAST; подождите
- На странице с результатом откройте окно "Dot matrix view". Сохраните изображение карты сходства. Подпишите какой геном - по какой оси.
- Опишите различия, пользуясь
- картой
- найденными участками, которые программа сочла достаточно сходными; их выравнивания - под картой
таблицей со списком этих участков, для скачивания которой в разделе Sequences producing significant alignments: следует поставить галочку, потом - Download, выбрать HitTable (csv), или подобной программе.
Колонки в этой таблице такие:
1я посл.(query) |
2я посл (subject) |
1я посл.(query) |
2я посл (subject) |
процент совпадающих нуклеотидов |
длина выравнивания |
чиcло несовпадений |
число букв, против которых в другой посл ничего нет |
начало в 1й |
конец в 1й |
начало во 2й |
конец в 2й |
параметр сходства Expected |
Вес выравнивания |
- Для поиска в определенном участке проще всего перейти по ссылке Graphics где показана интерактивная схема генов в геноме; можно задать координаты участка, и увидеть гены в нем, получить их названия (title)