mouse_genes <- c("Hdac2", "Timeless", "Prkcg", "Hlf", "Sin3a", "Ogt", "Id3", "Csnk1d", "Cdk5", "Ep300", "Cipc", "Relb")
Домашнее задание
Работа с функциональными аннотациями генов в R
Задания
Задание 1
Воспользуйтесь пакетом с аннотацией генов человека org.Hs.eg.db. Найдите ENSEMBL
и UNIPROT
идентификаторы для генов STAT1 и SERPINE1. Что это за гены - посмотрите на GENENAME
? Опишите ваши находки.
Задание 2
Воспользуйтесь пакетом с аннотацией генов человека org.Hs.eg.db. Переведите все содержащиеся в org.Hs.eg.db ENTREZ
-идентификаторы генов в символьные названия SYMBOL
и ENSEMBL
идентификаторы с помощью функции AnnotationDbi::select()
.
Произошла ли однозначная конвертация идентификаторов? Если нет, то у скольких генов возникла такая проблема?
Задание 3
BioMart отлично справляется с конвертацией идентификаторов генов, например, человека, однако он может быть еще полезен при конвертации идентификатров между разными организмами (определении ортологов).
Допустим, вы нашли интересную статью, где результаты были получены с использованием мышиной модели. Вы же работате с человеческими клеточными линиями, но все же хотели бы проверить выводы статьи на ваших данных. В таком случае вам нужно идентификаторы генов мыши перевести в идентификаторы генов человека.
Для решения такой задачи удобнее всего создать два mart объекта - для мыши и человека. А затем с помощью функции getLDS()
получить информацию из двух связанных объектов.
Если вы получаете следующую ошибку, попробуйте при создании mart объектов указать параметр host
: например, host = "https://jul2023.archive.ensembl.org/"
.
Error: biomaRt has encountered an unexpected server error.
Consider trying one of the Ensembl mirrors (for more details look at ?useEnsembl)
Задание 4
Давайте обратимся к базе данных генов человека Ensembl версии 98 (это можно сделать как с помощью biomaRt, так и с помощью AnnotationHub - выбирайте по своему вкусу) и изучим характеристики всех генов разных биотипов (белок-кодирующие, lncRNA и т.д.). Получите значения длин генов и постройте графики распределения для разных биотипов.