Kodomo

Пользователь

Задания по теме лекции 2

Отчет о выполненных заданиях присылайте Н.А.Потаповой в файле Word или аналогичной программы на адрес <nadezhdalpotapova AT gmail DOT com>. Копия А.В.Алексеевскому <aba AT belozersky DOT msu DOT ru>, т.к. задания начиная с 4-го придумал ААл и проверяют он и аспиранты.

Отчет должен содержать короткий текст с объяснениями и вашими комментариями.

Зачет темы – при выполнении и зачёте трех любых заданий.

Задание 1

Давайте побудем немного цитологами и генетиками. На лекции мы поговорили о проекте «Геном Человека», внимание которого было сосредоточено на той генетической информации (ДНК), которая расположена в ядре клетки.

На самом деле, под понятием «геном» подразумевается вся генетическая информация. И, помимо ядерной ДНК, есть ещё и другая ДНК, расположенная не в ядре и не изученная в проекте «Геном Человека». Мы мельком о ней поговорили в начале лекции. Поищите информацию об этой ДНК (можете поискать в интернете «геном человека» и дальше прочитать первые ссылки в выдаче поисковика, это самый простой вариант) и ответьте на вопросы:

Задание 2

А сейчас представим себя теми, кто занимается сравнительной геномикой. Предположим, у вас есть данные ядерных геномов человека, шимпанзе, бонобо. Все одного пола. Поищите в интернете в научных статьях/базах данных/и других источниках и составьте таблицу того, на сколько процентов будут отличаться все они от другого генома человека, назовём его "референсный" (того же пола). Подумайте и напишите, почему такие различия и какова их причина.

Пример таблицы

Отличия от "референсного" генома человека (в процентах))

В нуклеотидах

Человек

Шимпанзе

Бонобо

Задание 3

А это задание позволит почувствовать себя биоинформатиками. Ведь биоинформатика – это и программирование, и работа с программами, написанными другими, и, конечно, поиск в базах данных. Существует сайт NCBI, National Center for Biotechnology Information, в нём предоставляется доступ ко многим биоинформатическим базам данных, а также к стандартным биоинформатическим программам) и он – одна из самых главных баз данных, в которую добавляются практически все-все новые данные, в том числе, нуклеотидных и аминокислотных последовательностей.

Мы обсуждали на лекции первую версию генома человека. Прошло время и версии меняются, постоянно происходит уточнение и уменьшение числа «белых пятен» в геноме. Давайте посмотрим на то, что же известно про самую последнюю версию генома человека. Для этого – на сайте NCBI в разделе Assembly поищите человека (human или homo sapiens), выберете его в выдаче и укажите:

  1. Название версии генома (указано в самом верху страницы жирным шрифтом, прямо под Full Report)
  2. Описание (Description), дату загрузки в базу (Date) и того, кто её загружал (Submitter).
  3. Total sequence length и Total ungapped length. Подумайте и напишите, почему они отличаются.


В заданиях для умеющих программировать используйте

Одну хромосому человека в формате fasta (текстовый формат) можно скачать с сайта NCBI Genomes Human

Советую взять маленькую по размеру.

Ссылка из колонки Refseq. На странице хромосомы в меню Send to => выберите complete record, file, формат fasta.

Задание 4

Для умеющих программировать

Буква N в геноме обозначает, что не удалось определить какой именно нуклеотид стоит в данном месте.

Много-много N подряд значит, что не удалось определить последовательность целого участка и даже длина этого участка только приблизительно соответствует числу N подряд.

Вычислите

  1. сколько всего букв N в выбранной хромосоме и какой это процент от её длины
  2. сколько повторов N длиной более … (?) - сами выберите

Предупреждение. Если вы вычисляете все участки из 1000 N подряд, а в геноме стоит подряд 10 000 букв N, то следует считать, что в этом месте есть ОДИН повтор (а не 10, и не 9000!!!).


Вводная информация

Динуклеотид (два нуклеотида подряд) CG обозначают так: CpG чтобы не путать с парой комплементарных нуклеотидов в двухцепочечной ДНК! (p символизирует фосфатную группу, см формулу ДНК)

Ожидаемое число встреч CpG в ДНК (например, в хромосоме человека) вычисляется в предположении, что C и G соединяются в CpG случайно. Как будто, каждый следующий нуклеотид в последовательности появляется случайно с определенной вероятностью и независимо от того, какой нуклеотид стоит перед ним.

Поэтому ожидаемое число CpG: Expected(CpG) = f(C или G)*f(C или G)*L

f(C или G) - частота C и G в последовательности, f(C или G) = (#C + #G)/L, здесь #C – число нуклеотидов C в последовательности ДНК, #G соотв. L – число нуклеотидов в ДНК. В банках данных и статьях f(C или G) приводится в процентах и называется GC-состав генома (или ДНК). См. wiki GC-состав.

Пример, GC состав генома человека примерно 41%.


Известно, что число динуклеотидов CpG в геноме человека (и не только человека) достоверно меньше, чем ожидается. Пишут CpG недопредставлен в геноме человека. Мерой представленности служит число С = #CpG/Expected(CpG). (#CpG - наблюдаемое число CpG в ДНК). C называется контраст. C << 1 – недопредставленность, C>>1 – перепредставленность. Механизм этого явления объяснён.

Известно, что в геноме человека наблюдается неоднородность в частоте CpG вдоль генома. Есть так называемые CpG острова с бОльшим содержанием CpG. Известно, где типично расположены СpG острова и какую роль они играют.

Задание 5

Найдите и ответьте в отчёте на вопросы:

  1. Почему CpG недопредставлены у человека и других млекопитающих? b. Где типично расположены CpG острова и зачем они нужны?

Ссылки на источники ОБЯЗАТЕЛЬНЫ. Копи-паст ЗАПРЕЩЕН. Объясните своими словами, как поняли.


Задание 6.

С помощью геномного браузера найдите в геноме человека один CpG остров и опишите его длину (примерно) и положение относительно ближайшего гена. Приведите скриншот браузера и название гена. Можно описать впечатления об использовании геномного браузера, м.б. для каких-то своих интересов.

Пояснения. Геномный браузер очень непростая в понимании и употреблении программа. В ней вдоль всех хромосом идёт много-много т.н. треков с информацией. Каждый можно показать или убрать, двигаться вдоль хромосомы и менять масштаб (от масштаба, в котором видны буквы последовательности до масштаба, в котором все гены - как короткие черточки со стрелками).

Постараюсь описать как сделать такой вид, в котором можно разобраться. Дал это задание чтобы продемонстрировать как много информации про геном человека доступно. Такой браузер (их несколько аналогичных) используют теперь и в медицине.

Над ним меню управления положением окна в геноме (хромосома, координаты в ней) и масштаба изображения. Ниже окна - меню управления треками, разбитое на разделы. Верхний раздел - с треками CpG islands - это тот трек, который вставил в браузер алгоритм поиска CpG островов, используемый в CpGislandDB.

По умолчанию, открыт - светлый прямоугольничек - трек Strict (строгие критерии выделения CpG острова). Найдите этот трек в окне треков, так и написано сверху трека: CpG islands by CpG cluster - Strict set. Под этой надпись - CpG острова изображены черными полосками. Для вашего задания нужны гены и CpG острова (и линейка координат). Остальные треки можно закрыть. А именно, все треки в разделе Repeats и в разделе Comparative genomics, которые по умолчанию показаны. Для этого всех открытых треков в разделе нужно выбрать hide.

Двигаясь вдоль хромосомы или изменяя хромосому и координаты в ней (сверху можно этим управлять), меняя масштаб изображения, найдите CpG остров, рядом с которым есть ген или гены. И опишите что видите.

Задание 7(*)

Для умеющих программировать.

Известно, что динуклеотид TpA недопредставлен в большинстве геномов. Читал одну гипотезу, объясняющую это явление физически. Это явление известно, но почти не исследовано, т.к. не известна связь с биологической функцией (если есть).

Подсказка: вариант алгоритма. Разделим последовательность на фрагменты фиксированной длины (например, 1000 нуклеотидов). Для каждого фрагмента вычислите контраст C(TpA) во фрагменте (используя частоту f(T плюс A) во фрагменте для вычисления Expected(TpA)) . Если C(TpA) меньше (для недопредставленности) или больше (для перепредставленности) порога, то сохраните номер фрагмента, C(TpA) и f(T плюс A).

Подберите пороги путем запуска программы много раз таким образом, чтобы выделялись наиболее «контрастные» участки. Следующие подряд друг за другом контрастные участки можно объединить в один. Результат работы - программа, полученная таблица и ваши комментарии.

Так как мне и, похоже, мировой науке, неизвестно что получится, то действуйте согласно получаемым результатам и своей интуиции.