МФК "Биоинформатика", весна 2017
Задания 4
Выберите один из следующих белков человека:
- гемоглобин, цепь А
- гемоглобин, цепь B
- миоглобин
- трипсин 1
- альфа-актин 1 (альфа-актин скелетных мышц)
- протромбин
- субъединица A или B или C (или другая, есть все буквы от A до M) РНК-полимеразы II
Зайдите на сайт одного из геномных браузеров:
Постарайтесь разобраться с устройством браузера и найти следующую информацию о белке:
- Координаты гена этого белка в геноме (номер хромосомы, координаты на хромосоме, на какой цепи ДНК расположен ген: прямой или обратной относительно выбранной для хранения)
- Сколько вариантов транскрипта (т.е. зрелой мРНК) этого гена? Выберите один из вариантов и определите, сколько экзонов и сколько интронов в этом транскрипте.
- Какую часть занимают нетранслируемые области в выбранном транскрипте?
Постарайтесь добыть последовательность гена и последовательность транскрипта. Пришлите изображение карты локального сходства гена и транскрипта.
(*) Дополнительно. Найдите соответствующий транскрипт домовой мыши. Пользуясь "BLAST 2 sequences", постройте выравнивания транскриптов и белков.
Указания ААл
Я пишу для UCSC Genome Browser на примере гемоглобина (hemoglobin). В других браузерах есть все то же, но с другим интерфейсом.
- В результате поиска гемоглобина по названию в геноме человека получите много больше находок, чем имеется цепей гемоглобина! Читайте внимательно! Например, много находок альфа цепи гемоглобина с разными или одинаковыми дополнительными номерами (?). НО смотрите на хромосому и координаты гена! Это изоформы одного и того же гена! Это значит, что их зрелые матричные РНК отличаются границами удаляемых интронов, т.н. альтернативный сплайсинг. В результате и белки, транслируемые с по разному сплайсируемых мРНК имеют отличия в последовательности (какие?).
- Еще раз будьте внимательны: программа ищет все гены, в описании которых присутствует слово hemoglobin. Например, ген alpha hemoglobin stabilizing protein, который совсем не гемоглобин.
- По ссылке увидите картинку с большим множеством т.н. треков, каждый изображает какую-нибудь информацию об участке ДНК с показанным геном. Первым делом, предлагаю упростить картинку, оставив:
Раздел Mapping: Base positions — чтобы видеть координаты в хромосоме
Раздел Genes: NCBI Refseq — чтобы видеть ген согласно одному источнику информации RefSeq (reference sequences) — база данных относительно хорошо курируемых последовательностей; другие источники могут давать иные предсказания геном и их интрон - экзонных структур
Раздел Phenotype — сначала все закройте. Если очень захочется, то потом можно добавить OMIM allels — информацию из БД вариантов ДНК в определенных местах, связанных с наследственными патологиями; это для врачей, разбирающихся в генетике.