ФББ 2013-2014
Предсказание генов у эукариот
Genscan
Genscan - это онлайн сервис, который позволяет установить экзон-интронную структуру последовательности ДНК. В этом задании работа будет проведена для фрагмента генома человека. Подадим эту последовательность на вход, на выходе получим список экзонов, для которых определены координаты и типы. Возможные типы экзонов: Init – начальный, Intr – внутренний, Term – конечный; PlyA – сайт полиаденилирования (не является экзоном), Prom - промотор (не является экзоном).
Сначала поставим параметр "Suboptimal exon cutoff" на максимальное значени (1.0). Это означает, что программа будет искать максимально вероятные экзоны. Результаты работы программы представлены в таблице 1.
Таблица 1. Экзоны, найденные с помощью Genscan.
Начало | Конец | Цепь | Тип |
2497 | 2388 | - | Внутренний |
3948 | 3769 | - | Внутренний |
13254 | 13107 | - | Внутренний |
14575 | 14486 | - | Внутренний |
15571 | 15395 | - | Внутренний |
16403 | 16369 | - | Внутренний |
26891 | 26606 | - | Внутренний |
32696 | 32565 | - | Внутренний |
В таблице координаты конца меньше координат начала, потому что экзоны расположены на - цепи. Помимо экзонов Genscan предсказал возможный белковый продукт. В моём куске генома был предсказан белок каспаза-9 (протеаза, расщепляющая белки после аспарагиновой кислоты), которая закодирована на первой хромосоме и играет важную роль в регуляции апоптоза.
Также можно изменить параметр "Suboptimal exons сutoff", уменьшить его. Это делается для того, чтобы найти больше возможных экзонов, которые менее вероятны в строгой математической модели, но возможны в жизни. Снизив значение этого параметра до 0.5, на выходе получим ещё и список т.н. "неоптимальных" экзонов.
Genome browser
Воспользуемся геномным браузером, чтобы просмотреть информацию, относящуюся к данному куску ДНК человека. Для этого запустим BLAT для выданной последовательности с параметрами Assembly - Dec.2013 (RGCh38/hg38), Query type - DNA. На выходе получается довольно много результатов, самые лучшие из них представлены на рисунке 1.
Рисунок 1. Результаты поиска BLAT по заданной последовательности ДНК человека
Очевидно, что стоит взять находку №1, т.к. она полностью покрывает поданную на вход последовательность, имеет 100% сходства. Ещё в первом задании стало понятно, что скорее всего это фрагмент первой хромосомы, что подтверждается этой находкой.
Откроем находку в геномном браузере, попросим показать мРНК и ESTs (это короткие фрагменты РНК, прочитанные однократно). Чтобы найти интроны и различные типы экзонов ESTs сравниваются между собой и накладываются на геном. Получившееся окно геномного браузера можно увидеть на рисунке 2.
Рис.2.Исследуемая часть ДНК в геномном браузере.
В данной последовательности были найдены мРНК различных каспаз-9. Основная запись - CU675417, также показаны вариации, выделенные из различных органов (например, из мозга, Т-лимфоцитов(U60521), раковых клеток печени (AB015653)). Видимо, различные виды каспаз-9 получаются путём альтернативного сплайсинга с одного и того же гена. Типы экзонов - кассетные (т.е. могут как включаться, так и не включаться). Количество экзонов - 8 (всего, это лучше видно на рисунке 3), интронов - 8. Каспаза-9-бета является урезанным вариантом каспазы-9, у неё вырезаны экзоны 3-6. Известно, что каспаза-9-бета препятствует образованию полной формы каспазы-9, ингибируя активность специального белка, ответственного за образование полной каспазы-9 из прокаспазы. Также была найдены каспаза-9-гамма, которая содержит только один домен из полной каспазы-9. Это вызвано тем, что при её образовании происходит альтернативный сплайсинг четырёх экзонов, во время которого происходит инсерция последовательности, содержащей стоп кодон. В итоге трансляция с такой мРНК обрывается рано. Известно, что каспаза-9-гамма не может функционировать как полная каспаза-9, однако она способна ингибировать её активность по тому же механизму, что и каспаза-9-бета. Различные типы каспазы-9, получаемые в результате альтернативного сплайсинга, называются изоформами. Сейчас известно, что неправильный сплайсинг играет важную роль в патофизиологии рака.
В данной части генома были найдены некоторые регуляторные элементы на интронах: сайт посадки репрессора транскрипции, сайт посадки транскрипционного фактора, несколько энхансеров, промотор и участок с открытым хроматином.
Также для визуализации участка я использовала ENSEML - ещё один геномный браузер (я нахожу его более симпатичным). На рисунке 3 в красном прямоугольнике - расположение поданной на вход последовательности на хромосоме, также показано её окружение (слева ген эластазы, справа - ген шаперона DnaJ).
Рис.3.Исследуемая часть ДНК в геномном браузере (ENSEMBL).
Аннотирование генома с помощью BLASTX
Дана последовательность нуклеотидов из генома Actinidia chinensis, задача - проаннотировать его с помощью BlastX - это такой вид бласта, который использует геномную ДНК, транслирует её и ищет по белковым базам данных. Фрагмент, выданный мне - здесь.
Запустим BlastX по базе данных SwissProt, поиск ограничен белками растений. Было найдено 206 находок для разных мест поданной на вход последовательности. На рисунке 4 показано распределение находок по данной на вход последовательности. Видно, что есть три участка, где возможно есть гены. Участок №1 выровнялся с белками-ингибиторами диссоциации ГДФ (макс. сходство - 55%, e-value - 3e-51) и с YCF2 protein - АТФазами из стромы хлоропластов (макс.сходство - 73%, e-value - 3e-08). Второй участок выравнивается с элонгационными факторами: EF-1-alpha (сходство 97%, e-value - 2e-175), EF-Tu - хлоропластный (сходство - 37%, e-value - 3e-10). Третий участок - с рецептором ядерной оболочки, ответственный за сохранение белков на ней (сходство 83%, e-value - 5e-37).
Рисунок 4. Результаты поиска BLASTX по заданному фрагменту генома киви.
Поскольку заранее дано, что это эукариотический геном, все хлоропластные гены не рассматриваем. Также есть два участка, расположенные между первым и вторым, для которых тоже прошло выравнивание с какими-то белками, но они сомнительные из-за не очень высокого процента сходства и отсутствия гомологов. Их также не берём в расчёт.
Теперь определим экзоны на фрагменте из генома киви. Наиболее трудная ситуация - с первым геном. Для того, чтобы определить экзоны, будем смотреть не только на выравнивание с наибольшим весом, но и на другие выравнивания, т.к. структура участка, с которым выровнялся ген ингибитора участка ГДФ, содержит как бы 2 повторяющихся гена. Также будем опираться на экзон-интронную структуру гена того же белка из Arabidopsis thaliana (рисунок 5), т.к. ожидается, что она должна примерно совпадать по количеству экзонов.
Рисунок 5. Экзон-интронная структура гена ингибитора диссоциации ГДФ из Arabidopsis thaliana. Розовые прямоугольники - это экзоны, пики между ними - интроны.
Исходя из выравнивания и экзон-интронной структуры гомологичного гена, данный участок из генома киви я разделила на 14 экзонных участков. Стоит упомянуть, что экзоны 1-7, 2-8 и т.д. совпадают.
С геном элонгационного фактора 1 альфа будет проще, поскольку он обладает большой консервативностью и содержит всего лишь 1 интрон. Последний ген расположен на обратной цепи и содержит 7 экзонов. Информация о трёх этих генах собрана в таблице 1.
Таблица 1. Экзоны 3х предсказанных генов из фрагмета генома киви.
№ экзона | Координаты начала | Координаты конца | Цепь |
Предсказанный ингибитор диссоциации ГДФ | |||
1 | 11507 | 11605 | + |
2 | 12318 | 12359 | + |
3 | 12640 | 12725 | + |
4 | 14416 | 14508 | + |
5 | 14597 | 14893 | + |
6 | 20009 | 20146 | + |
7 | 21066 | 21439 | + |
8 | 23467 | 23565 | + |
9 | 26563 | 26603 | + |
10 | 26705 | 26970 | + |
11 | 30398 | 30481 | + |
12 | 30582 | 30860 | + |
13 | 31372 | 31509 | + |
14 | 32362 | 32730 | + |
Предсказанный элонгационный фактор 1 альфа | |||
1 | 72609 | 73072 | + |
2 | 73819 | 74666 | + |
Предсказанный рецептор ядерной оболочки | |||
1 | 104098 | 103943 | - |
2 | 100422 | 100255 | - |
3 | 100158 | 100146 | - |
4 | 98544 | 98664 | - |
5 | 94568 | 94545 | - |
6 | 94319 | 94306 | - |