Домашнее задание

Работа с функциональными аннотациями генов в R

Автор

Анна Валяева

Дата публикации

29 ноября 2024 г.

Задания

Задание 1

Воспользуйтесь пакетом с аннотацией генов человека org.Hs.eg.db. Найдите ENSEMBL и UNIPROT идентификаторы для генов STAT1 и SERPINE1. Что это за гены - посмотрите на GENENAME? Опишите ваши находки.

Задание 2

Воспользуйтесь пакетом с аннотацией генов человека org.Hs.eg.db. Переведите все содержащиеся в org.Hs.eg.db ENTREZ-идентификаторы генов в символьные названия SYMBOL и ENSEMBL идентификаторы с помощью функции AnnotationDbi::select().

Произошла ли однозначная конвертация идентификаторов? Если нет, то у скольких генов возникла такая проблема?

Задание 3

BioMart отлично справляется с конвертацией идентификаторов генов, например, человека, однако он может быть еще полезен при конвертации идентификатров между разными организмами (определении ортологов).

Допустим, вы нашли интересную статью, где результаты были получены с использованием мышиной модели. Вы же работате с человеческими клеточными линиями, но все же хотели бы проверить выводы статьи на ваших данных. В таком случае вам нужно идентификаторы генов мыши перевести в идентификаторы генов человека.

Для решения такой задачи удобнее всего создать два mart объекта - для мыши и человека. А затем с помощью функции getLDS() получить информацию из двух связанных объектов.

Если вы получаете следующую ошибку, попробуйте при создании mart объектов указать параметр host: например, host = "https://jul2023.archive.ensembl.org/".

Error: biomaRt has encountered an unexpected server error.
Consider trying one of the Ensembl mirrors (for more details look at ?useEnsembl)
mouse_genes <- c("Hdac2", "Timeless", "Prkcg", "Hlf", "Sin3a", "Ogt", "Id3", "Csnk1d", "Cdk5", "Ep300", "Cipc", "Relb")

Задание 4

Давайте обратимся к базе данных генов человека Ensembl версии 98 (это можно сделать как с помощью biomaRt, так и с помощью AnnotationHub - выбирайте по своему вкусу) и изучим характеристики всех генов разных биотипов (белок-кодирующие, lncRNA и т.д.). Получите значения длин генов и постройте графики распределения для разных биотипов.