Задания по лекции 2
Отчет о выполненных заданиях присылайте Н.Потаповой <nadezhdalpotapova AT gmail DOT com>, копия А.Алексеевскому <aba AT belozersky DOT msu DOT ru> в файле Word или аналогичной программы
Тема засчитывается, если выполнено и зачтено задание 1 и, по крайней мере, еще одно задание.
Таким образом, Задание 1 обязательно для зачета темы (это связано с плохими результатами выполнения задания 1 по теме лекции 1).
Задание 1
Придумайте и напишите последовательность палиндромной ДНК из восьми пар нуклеотидов (см указания)
Задание 2
Узнайте сколько стоит секвенирование вашего персонального генома в Москве (или в другом городе) в одном из вариантов. С биоинформатической работой или без - как фирма предлагает.
- экзом (все последовательности, кодирующие белки)
- транскриптом (последовательности всех мРНК клеток ткани с указанием процента каждой мРНК)
- полный геном
В ответе укажите фирму, вариант секвенирования, длину прочтений, покрытие, цену, входит ли в цену биоинформатическая работа, как долго ждать.
Задание 3
Проверьте, что двухбуквенные слова CG и TA недопредставлены на выбранной вами хромосоме человека. Какое из этих слов недопредставлено в большей степени?
В ответе укажите выбранную хромосому(или митохондриальную ДНК); число и долю букв A, T, G, C; наличие букв, отличных от A, T, G, C; число слов CG, GC и TA, AT; ожидаемое числов слов CG, GC и TA, AT; показатель представленности слов CG, GC и TA, AT. Вывод.
Задание 4
Найдите информацию о том, почему слова CG недопредставлены в геноме человека, какая биология с этим связана. Кратко опишите что поняли.
При поиске ищите CpG, а не CG. Буква p символизирует фосфатную группу между основаниями C и G, и не дает спутать с парой комплементарных оснований CG.
Указания
Задание 1
Палиндромом называется такая двухцепочечная ДНК, последовательность которой по одной цепочке равна последовательности по второй цепочке.
Задание 2
Не существует технологий, позволяющих секвенировать целиком длинную молекулу ДНК.
В биологическом образце много одинаковых ДНК. Молекулы ДНК расщепляют ультразвуком на фрагменты в случайных местах. Секвенируют не фрагменты целиком, а их части определенной длины. Получающиеся последовательности называются прочтениями (reads). Длина прочтений зависит от технологии. Сумма длин прочтений превышает длину генома (или его секвенируемой части) во много раз.
Разные технологии дают прочтения разной длины и разную частоту ошибок.
Параметр Покрытие показывает сколько раз в среднем был прочтен каждый нуклеотид, т.е. сколько разных прочтений его содержат. Покрытие определяет надежность результата. Считается, что при покрытии 20 результат достаточно надежен.
Задание 3
Выбор хромосомы. См. https://www.ncbi.nlm.nih.gov/projects/genome/ => Human genome.
- Идентификаторы хромосом в базе данных NC_000001, NC_000002, ..., NC_000022, NC_000023, NC_000024; митохондриальная ДНК NC_012920
- Если своя программа, то на сайте NCBI скачиваете последовательность хромосомы в формате fasta (см. указание к заданию 5 лекции 1) и считаете число букв и число слов
Программа Ивана Русинова из нашей группы http://mouse.belozersky.msu.ru/tools/cbcalc/ выдает параметр CB (см. ниже), и вам не придется выполнять арифметические действия, описанные ниже.
Размер входного файла для этого сервиса ограничен 50 М.
- Вырежьте из выбранной хромосомы участок, содержащий менее 50 млн. букв (На сайте NCBI с последовательностью в формате fasta используйте меню Change region shown).
Сохранение: send to => Complete record, File, format: fasta
- Сохраненный файл надо загрузить (upload) на сервис И.Русинова.
- Для слов длины два разные методы дают примерно одинаковые результаты
- доля буквы A = #A/(#A + #T + #G + #C)
- #A = число букв A
- частота слов CG = #CG/(суммарное число двухбуквенных слов)
- ожидаемая число слов CG = доля(С)*доля(G)*#(всех слов длины 2) ( в предположении что С и G независимо друг от друга расположены вдоль генома)
- показатель представленности CB(compositional bias) на примере CG: CB = #CG/ожидаемое число слов CG
CB < 0.8 => слово недопредставлено, т.е. C не любит быть перед G
0.8 < СB < 1.2 => C и G распределены случайно и независимо вдоль генома
CB > 1.2 => слово перепредставлено, т.е. C любит быть перед G