Kodomo

Пользователь

Задания по лекции 2

Отчет о выполненных заданиях присылайте Н.Потаповой <nadezhdalpotapova AT gmail DOT com>, копия А.Алексеевскому <aba AT belozersky DOT msu DOT ru> в файле Word или аналогичной программы

Тема засчитывается, если выполнено и зачтено задание 1 и, по крайней мере, еще одно задание.

Таким образом, Задание 1 обязательно для зачета темы (это связано с плохими результатами выполнения задания 1 по теме лекции 1).

Задание 1

Придумайте и напишите последовательность палиндромной ДНК из восьми пар нуклеотидов (см указания)

Задание 2

Узнайте сколько стоит секвенирование вашего персонального генома в Москве (или в другом городе) в одном из вариантов. С биоинформатической работой или без - как фирма предлагает.

В ответе укажите фирму, вариант секвенирования, длину прочтений, покрытие, цену, входит ли в цену биоинформатическая работа, как долго ждать.

Задание 3

Проверьте, что двухбуквенные слова CG и TA недопредставлены на выбранной вами хромосоме человека. Какое из этих слов недопредставлено в большей степени?

В ответе укажите выбранную хромосому(или митохондриальную ДНК); число и долю букв A, T, G, C; наличие букв, отличных от A, T, G, C; число слов CG, GC и TA, AT; ожидаемое числов слов CG, GC и TA, AT; показатель представленности слов CG, GC и TA, AT. Вывод.

Задание 4

Найдите информацию о том, почему слова CG недопредставлены в геноме человека, какая биология с этим связана. Кратко опишите что поняли.

При поиске ищите CpG, а не CG. Буква p символизирует фосфатную группу между основаниями C и G, и не дает спутать с парой комплементарных оснований CG.

Указания

Задание 1

Палиндромом называется такая двухцепочечная ДНК, последовательность которой по одной цепочке равна последовательности по второй цепочке.

Задание 2

Не существует технологий, позволяющих секвенировать целиком длинную молекулу ДНК.

В биологическом образце много одинаковых ДНК. Молекулы ДНК расщепляют ультразвуком на фрагменты в случайных местах. Секвенируют не фрагменты целиком, а их части определенной длины. Получающиеся последовательности называются прочтениями (reads). Длина прочтений зависит от технологии. Сумма длин прочтений превышает длину генома (или его секвенируемой части) во много раз.

Разные технологии дают прочтения разной длины и разную частоту ошибок.

Параметр Покрытие показывает сколько раз в среднем был прочтен каждый нуклеотид, т.е. сколько разных прочтений его содержат. Покрытие определяет надежность результата. Считается, что при покрытии 20 результат достаточно надежен.

Задание 3