Main/mf_2021s/task2 - KodomoWiki

Задания по теме лекции 2

Отчет о выполненных заданиях присылайте Н.А.Потаповой в файле Word или аналогичной программы на адрес <nadezhdalpotapova AT gmail DOT com>. Копия А.В.Алексеевскому <aba AT belozersky DOT msu DOT ru>, т.к. задания начиная с 4-го придумал ААл и проверяют он и аспиранты.

Отчет должен содержать короткий текст с объяснениями и вашими комментариями.

Зачет темы – при выполнении и зачёте трех любых заданий.

Задание 1

Давайте побудем немного цитологами и генетиками. На лекции мы поговорили о проекте «Геном Человека», внимание которого было сосредоточено на той генетической информации (ДНК), которая расположена в ядре клетки.

На самом деле, под понятием «геном» подразумевается вся генетическая информация. И, помимо ядерной ДНК, есть ещё и другая ДНК, расположенная не в ядре и не изученная в проекте «Геном Человека». Мы мельком о ней поговорили в начале лекции. Поищите информацию об этой ДНК (можете поискать в интернете «геном человека» и дальше прочитать первые ссылки в выдаче поисковика, это самый простой вариант) и ответьте на вопросы:

где эта ДНК находится,
примерно сколько молекул этой ДНК в одной клетке,
когда была секвенирована (укажите год),
какая длина в нуклеотидах,
сколько содержит генов,
приведите хотя бы одно наследственное заболевание, которое может вызываться мутациями в генах неядерного генома?

Задание 2

А сейчас представим себя теми, кто занимается сравнительной геномикой. Предположим, у вас есть данные ядерных геномов человека, шимпанзе, бонобо. Все одного пола. Поищите в интернете в научных статьях/базах данных/и других источниках и составьте таблицу того, на сколько процентов будут отличаться все они от другого генома человека, назовём его "референсный" (того же пола). Подумайте и напишите, почему такие различия и какова их причина.

Пример таблицы

	Отличия от "референсного" генома человека (в процентах))	В нуклеотидах
Человек
Шимпанзе
Бонобо

Задание 3

А это задание позволит почувствовать себя биоинформатиками. Ведь биоинформатика – это и программирование, и работа с программами, написанными другими, и, конечно, поиск в базах данных. Существует сайт NCBI, National Center for Biotechnology Information, в нём предоставляется доступ ко многим биоинформатическим базам данных, а также к стандартным биоинформатическим программам) и он – одна из самых главных баз данных, в которую добавляются практически все-все новые данные, в том числе, нуклеотидных и аминокислотных последовательностей.

Мы обсуждали на лекции первую версию генома человека. Прошло время и версии меняются, постоянно происходит уточнение и уменьшение числа «белых пятен» в геноме. Давайте посмотрим на то, что же известно про самую последнюю версию генома человека. Для этого – на сайте NCBI в разделе Assembly поищите человека (human или homo sapiens), выберете его в выдаче и укажите:

Название версии генома (указано в самом верху страницы жирным шрифтом, прямо под Full Report)
Описание (Description), дату загрузки в базу (Date) и того, кто её загружал (Submitter).
Total sequence length и Total ungapped length. Подумайте и напишите, почему они отличаются.

В заданиях для умеющих программировать используйте

Одну хромосому человека в формате fasta (текстовый формат) можно скачать с сайта NCBI Genomes Human

Советую взять маленькую по размеру.

Ссылка из колонки Refseq. На странице хромосомы в меню Send to => выберите complete record, file, формат fasta.

Задание 4

Для умеющих программировать

Буква N в геноме обозначает, что не удалось определить какой именно нуклеотид стоит в данном месте.

Много-много N подряд значит, что не удалось определить последовательность целого участка и даже длина этого участка только приблизительно соответствует числу N подряд.

Вычислите

сколько всего букв N в выбранной хромосоме и какой это процент от её длины
сколько повторов N длиной более … (?) - сами выберите

Предупреждение. Если вы вычисляете все участки из 1000 N подряд, а в геноме стоит подряд 10 000 букв N, то следует считать, что в этом месте есть ОДИН повтор (а не 10, и не 9000!!!).

Вводная информация

Динуклеотид (два нуклеотида подряд) CG обозначают так: CpG чтобы не путать с парой комплементарных нуклеотидов в двухцепочечной ДНК! (p символизирует фосфатную группу, см формулу ДНК)

Ожидаемое число встреч CpG в ДНК (например, в хромосоме человека) вычисляется в предположении, что C и G соединяются в CpG случайно. Как будто, каждый следующий нуклеотид в последовательности появляется случайно с определенной вероятностью и независимо от того, какой нуклеотид стоит перед ним.

Поэтому ожидаемое число CpG: Expected(CpG) = f(C или G)*f(C или G)*L

f(C или G) - частота C и G в последовательности, f(C или G) = (#C + #G)/L, здесь #C – число нуклеотидов C в последовательности ДНК, #G соотв. L – число нуклеотидов в ДНК. В банках данных и статьях f(C или G) приводится в процентах и называется GC-состав генома (или ДНК). См. wiki GC-состав.

Пример, GC состав генома человека примерно 41%.

Известно, что число динуклеотидов CpG в геноме человека (и не только человека) достоверно меньше, чем ожидается. Пишут CpG недопредставлен в геноме человека. Мерой представленности служит число С = #CpG/Expected(CpG). (#CpG - наблюдаемое число CpG в ДНК). C называется контраст. C << 1 – недопредставленность, C>>1 – перепредставленность. Механизм этого явления объяснён.

Известно, что в геноме человека наблюдается неоднородность в частоте CpG вдоль генома. Есть так называемые CpG острова с бОльшим содержанием CpG. Известно, где типично расположены СpG острова и какую роль они играют.

Задание 5

Найдите и ответьте в отчёте на вопросы:

Почему CpG недопредставлены у человека и других млекопитающих? b. Где типично расположены CpG острова и зачем они нужны?

Ссылки на источники ОБЯЗАТЕЛЬНЫ. Копи-паст ЗАПРЕЩЕН. Объясните своими словами, как поняли.

Задание 6.

С помощью геномного браузера найдите в геноме человека один CpG остров и опишите его длину (примерно) и положение относительно ближайшего гена. Приведите скриншот браузера и название гена. Можно описать впечатления об использовании геномного браузера, м.б. для каких-то своих интересов.

Пояснения. Геномный браузер очень непростая в понимании и употреблении программа. В ней вдоль всех хромосом идёт много-много т.н. треков с информацией. Каждый можно показать или убрать, двигаться вдоль хромосомы и менять масштаб (от масштаба, в котором видны буквы последовательности до масштаба, в котором все гены - как короткие черточки со стрелками).

Постараюсь описать как сделать такой вид, в котором можно разобраться. Дал это задание чтобы продемонстрировать как много информации про геном человека доступно. Такой браузер (их несколько аналогичных) используют теперь и в медицине.

Используйте сайт CpGislandDB. Этот сайт делает свой трек с CpG островами в геномном браузере Ucsc
Выберите PREDICTED CPG-Islands => Human HG38 => Genome Browser at UCSC. Попадаете в окно UCSC браузера генома человека. Треки показаны в верхнем белом окне.

Над ним меню управления положением окна в геноме (хромосома, координаты в ней) и масштаба изображения. Ниже окна - меню управления треками, разбитое на разделы. Верхний раздел - с треками CpG islands - это тот трек, который вставил в браузер алгоритм поиска CpG островов, используемый в CpGislandDB.

По умолчанию, открыт - светлый прямоугольничек - трек Strict (строгие критерии выделения CpG острова). Найдите этот трек в окне треков, так и написано сверху трека: CpG islands by CpG cluster - Strict set. Под этой надпись - CpG острова изображены черными полосками. Для вашего задания нужны гены и CpG острова (и линейка координат). Остальные треки можно закрыть. А именно, все треки в разделе Repeats и в разделе Comparative genomics, которые по умолчанию показаны. Для этого всех открытых треков в разделе нужно выбрать hide.

Двигаясь вдоль хромосомы или изменяя хромосому и координаты в ней (сверху можно этим управлять), меняя масштаб изображения, найдите CpG остров, рядом с которым есть ген или гены. И опишите что видите.

Задание 7(*)

Для умеющих программировать.

Известно, что динуклеотид TpA недопредставлен в большинстве геномов. Читал одну гипотезу, объясняющую это явление физически. Это явление известно, но почти не исследовано, т.к. не известна связь с биологической функцией (если есть).

Найдите островки выраженной перепредставленности или недопредставленности TpA в одной хромосоме человека.

Подсказка: вариант алгоритма. Разделим последовательность на фрагменты фиксированной длины (например, 1000 нуклеотидов). Для каждого фрагмента вычислите контраст C(TpA) во фрагменте (используя частоту f(T плюс A) во фрагменте для вычисления Expected(TpA)) . Если C(TpA) меньше (для недопредставленности) или больше (для перепредставленности) порога, то сохраните номер фрагмента, C(TpA) и f(T плюс A).

Подберите пороги путем запуска программы много раз таким образом, чтобы выделялись наиболее «контрастные» участки. Следующие подряд друг за другом контрастные участки можно объединить в один. Результат работы - программа, полученная таблица и ваши комментарии.

Так как мне и, похоже, мировой науке, неизвестно что получится, то действуйте согласно получаемым результатам и своей интуиции.

Kodomo

Пользователь