Задания по теме лекции 2
Отчет о выполненных заданиях присылайте Н.А.Потаповой в файле Word или аналогичной программы на адрес <nadezhdalpotapova AT gmail DOT com>. Копия А.В.Алексеевскому <aba AT belozersky DOT msu DOT ru>, т.к. задания начиная с 4-го придумал ААл и проверяют он и аспиранты.
Отчет должен содержать короткий текст с объяснениями и вашими комментариями.
Зачет темы – при выполнении и зачёте трех любых заданий.
Задание 1
Давайте побудем немного цитологами и генетиками. На лекции мы поговорили о проекте «Геном Человека», внимание которого было сосредоточено на той генетической информации (ДНК), которая расположена в ядре клетки.
На самом деле, под понятием «геном» подразумевается вся генетическая информация. И, помимо ядерной ДНК, есть ещё и другая ДНК, расположенная не в ядре и не изученная в проекте «Геном Человека». Мы мельком о ней поговорили в начале лекции. Поищите информацию об этой ДНК (можете поискать в интернете «геном человека» и дальше прочитать первые ссылки в выдаче поисковика, это самый простой вариант) и ответьте на вопросы:
- где эта ДНК находится,
- примерно сколько молекул этой ДНК в одной клетке,
- когда была секвенирована (укажите год),
- какая длина в нуклеотидах,
- сколько содержит генов,
приведите хотя бы одно наследственное заболевание, которое может вызываться мутациями в генах неядерного генома?
Задание 2
А сейчас представим себя теми, кто занимается сравнительной геномикой. Предположим, у вас есть данные ядерных геномов человека, шимпанзе, бонобо. Все одного пола. Поищите в интернете в научных статьях/базах данных/и других источниках и составьте таблицу того, на сколько процентов будут отличаться все они от другого генома человека, назовём его "референсный" (того же пола). Подумайте и напишите, почему такие различия и какова их причина.
Пример таблицы
|
Отличия от "референсного" генома человека (в процентах)) |
В нуклеотидах |
Человек |
|
|
Шимпанзе |
|
|
Бонобо |
|
|
Задание 3
А это задание позволит почувствовать себя биоинформатиками. Ведь биоинформатика – это и программирование, и работа с программами, написанными другими, и, конечно, поиск в базах данных. Существует сайт NCBI, National Center for Biotechnology Information, в нём предоставляется доступ ко многим биоинформатическим базам данных, а также к стандартным биоинформатическим программам) и он – одна из самых главных баз данных, в которую добавляются практически все-все новые данные, в том числе, нуклеотидных и аминокислотных последовательностей.
Мы обсуждали на лекции первую версию генома человека. Прошло время и версии меняются, постоянно происходит уточнение и уменьшение числа «белых пятен» в геноме. Давайте посмотрим на то, что же известно про самую последнюю версию генома человека. Для этого – на сайте NCBI в разделе Assembly поищите человека (human или homo sapiens), выберете его в выдаче и укажите:
- Название версии генома (указано в самом верху страницы жирным шрифтом, прямо под Full Report)
- Описание (Description), дату загрузки в базу (Date) и того, кто её загружал (Submitter).
- Total sequence length и Total ungapped length. Подумайте и напишите, почему они отличаются.
В заданиях для умеющих программировать используйте
Одну хромосому человека в формате fasta (текстовый формат) можно скачать с сайта NCBI Genomes Human
Советую взять маленькую по размеру.
Ссылка из колонки Refseq. На странице хромосомы в меню Send to => выберите complete record, file, формат fasta.
Задание 4
Для умеющих программировать
Буква N в геноме обозначает, что не удалось определить какой именно нуклеотид стоит в данном месте.
Много-много N подряд значит, что не удалось определить последовательность целого участка и даже длина этого участка только приблизительно соответствует числу N подряд.
Вычислите
- сколько всего букв N в выбранной хромосоме и какой это процент от её длины
- сколько повторов N длиной более … (?) - сами выберите
Предупреждение. Если вы вычисляете все участки из 1000 N подряд, а в геноме стоит подряд 10 000 букв N, то следует считать, что в этом месте есть ОДИН повтор (а не 10, и не 9000!!!).
Вводная информация
Динуклеотид (два нуклеотида подряд) CG обозначают так: CpG чтобы не путать с парой комплементарных нуклеотидов в двухцепочечной ДНК! (p символизирует фосфатную группу, см формулу ДНК)
Ожидаемое число встреч CpG в ДНК (например, в хромосоме человека) вычисляется в предположении, что C и G соединяются в CpG случайно. Как будто, каждый следующий нуклеотид в последовательности появляется случайно с определенной вероятностью и независимо от того, какой нуклеотид стоит перед ним.
Поэтому ожидаемое число CpG: Expected(CpG) = f(C или G)*f(C или G)*L
f(C или G) - частота C и G в последовательности, f(C или G) = (#C + #G)/L, здесь #C – число нуклеотидов C в последовательности ДНК, #G соотв. L – число нуклеотидов в ДНК. В банках данных и статьях f(C или G) приводится в процентах и называется GC-состав генома (или ДНК). См. wiki GC-состав.
Пример, GC состав генома человека примерно 41%.
Известно, что число динуклеотидов CpG в геноме человека (и не только человека) достоверно меньше, чем ожидается. Пишут CpG недопредставлен в геноме человека. Мерой представленности служит число С = #CpG/Expected(CpG). (#CpG - наблюдаемое число CpG в ДНК). C называется контраст. C << 1 – недопредставленность, C>>1 – перепредставленность. Механизм этого явления объяснён.
Известно, что в геноме человека наблюдается неоднородность в частоте CpG вдоль генома. Есть так называемые CpG острова с бОльшим содержанием CpG. Известно, где типично расположены СpG острова и какую роль они играют.
Задание 5
Найдите и ответьте в отчёте на вопросы:
- Почему CpG недопредставлены у человека и других млекопитающих? b. Где типично расположены CpG острова и зачем они нужны?
Ссылки на источники ОБЯЗАТЕЛЬНЫ. Копи-паст ЗАПРЕЩЕН. Объясните своими словами, как поняли.
Задание 6.
С помощью геномного браузера найдите в геноме человека один CpG остров и опишите его длину (примерно) и положение относительно ближайшего гена. Приведите скриншот браузера и название гена. Можно описать впечатления об использовании геномного браузера, м.б. для каких-то своих интересов.
Пояснения. Геномный браузер очень непростая в понимании и употреблении программа. В ней вдоль всех хромосом идёт много-много т.н. треков с информацией. Каждый можно показать или убрать, двигаться вдоль хромосомы и менять масштаб (от масштаба, в котором видны буквы последовательности до масштаба, в котором все гены - как короткие черточки со стрелками).
Постараюсь описать как сделать такой вид, в котором можно разобраться. Дал это задание чтобы продемонстрировать как много информации про геном человека доступно. Такой браузер (их несколько аналогичных) используют теперь и в медицине.
Используйте сайт CpGislandDB. Этот сайт делает свой трек с CpG островами в геномном браузере Ucsc
Выберите PREDICTED CPG-Islands => Human HG38 => Genome Browser at UCSC. Попадаете в окно UCSC браузера генома человека. Треки показаны в верхнем белом окне.
Над ним меню управления положением окна в геноме (хромосома, координаты в ней) и масштаба изображения. Ниже окна - меню управления треками, разбитое на разделы. Верхний раздел - с треками CpG islands - это тот трек, который вставил в браузер алгоритм поиска CpG островов, используемый в CpGislandDB.
По умолчанию, открыт - светлый прямоугольничек - трек Strict (строгие критерии выделения CpG острова). Найдите этот трек в окне треков, так и написано сверху трека: CpG islands by CpG cluster - Strict set. Под этой надпись - CpG острова изображены черными полосками. Для вашего задания нужны гены и CpG острова (и линейка координат). Остальные треки можно закрыть. А именно, все треки в разделе Repeats и в разделе Comparative genomics, которые по умолчанию показаны. Для этого всех открытых треков в разделе нужно выбрать hide.
Двигаясь вдоль хромосомы или изменяя хромосому и координаты в ней (сверху можно этим управлять), меняя масштаб изображения, найдите CpG остров, рядом с которым есть ген или гены. И опишите что видите.
Задание 7(*)
Для умеющих программировать.
Известно, что динуклеотид TpA недопредставлен в большинстве геномов. Читал одну гипотезу, объясняющую это явление физически. Это явление известно, но почти не исследовано, т.к. не известна связь с биологической функцией (если есть).
- Найдите островки выраженной перепредставленности или недопредставленности TpA в одной хромосоме человека.
Подсказка: вариант алгоритма. Разделим последовательность на фрагменты фиксированной длины (например, 1000 нуклеотидов). Для каждого фрагмента вычислите контраст C(TpA) во фрагменте (используя частоту f(T плюс A) во фрагменте для вычисления Expected(TpA)) . Если C(TpA) меньше (для недопредставленности) или больше (для перепредставленности) порога, то сохраните номер фрагмента, C(TpA) и f(T плюс A).
Подберите пороги путем запуска программы много раз таким образом, чтобы выделялись наиболее «контрастные» участки. Следующие подряд друг за другом контрастные участки можно объединить в один. Результат работы - программа, полученная таблица и ваши комментарии.
Так как мне и, похоже, мировой науке, неизвестно что получится, то действуйте согласно получаемым результатам и своей интуиции.
Выполнение задания 1 обязательно для зачёта по теме лекции 1.