Учебный сайт Карины Сим
  • Главная
  • Семестры
  • Обо мне
  • ФББ

    Практикум 6

    Базы данных

    Для выполнения данного практикума мне был предоставлен список ID генов человека.

    Список

    В данном списке 128 ID генов.

    Вероятно, эти гены как-то между собой связаны раз оказались в одном списке. Однако список довольно большой, и с ходу что-то сказать об этих генах непросто.

    Целью данного практикума было проанализировать данный список при помощи различных сервисов.

    GO

    Для начала я решила проанализировать список при помощи базы данных GO (Gene Ontology). Эта база данных представляет собой граф биологических терминов.

    Эта база данных позволяет понять, в каких процессах участвуют белки, закодированных в этих генах.

    Для начала я загрузила список ID и выставила параметры: использование точного теста Фишера и использование поправки Бонферонни на множественное тестирование. В результате была получена таблица находок, которую я отсортировала по p-value с поправкой Бонферонни. Всего таблица содержит 117 терминов. Таблица получилась слишком большой, поэтому полностью ее можно посмотреть по ссылке:

    Таблица с выдачей

    Наиболее значимые находки привожу ниже (рисунок 1).

    Рисунок 1
    Рисунок 1. Наиболее значимые находки в выдаче.

    Можно заметить, что данные гены задействованы в таких биологических процессах, как метаболизм фосфолипидов (в том числе глицерофосфолипидов), их биосинтез.

    Стоит отметить, что веб-интерфейс довольно удобный, было интуитивно понятно, как загружать список ID и выставлять параметры. Результат выдается практически мгновеено. В таблице отражены наиболее важные столбцы, можно выбрать сортировку по разным столбцам (в нашем случае по p-value). Все биологические процессы (первый столбец) "кликабельные". Так мы, например можем узнать, что имеется в виду под тем или иным термином, а также какие еще гены участвуют в этом процессе.

    The Human Protein Atlas

    Еще на занятии меня довольно-таки впечатлила данная программа, поэтому я решила попробовать поработать с ней. Она позволяет получить информацию об экспрессии РНК и белка, причем в довольно понятном интерактивном виде.

    На вход данной программе передается ID гена. Список у меня очень большой, ID же генов в большинстве своем мне мало о чем говорят (можно только догадываться). Поэтому мой выбор ID практически никак не обоснован: я остановилась в случайном месте списка и выбрала ID LPIN2, который показался мне знакомым (видимо, я натыкалась на него когда-то при выполнении предыдущих практикумов).

    Итак, в результате работы программы стало понятно, что это ген белка липина-2. Этот белок относится к ферментам, участвующим в метаболических путях. А также этот белок связан с человеческими заболеваниями и является возможной мишенью для лекарств.

    Также в выдаче представлено описание функции белка из Uniprot. Если кратко, этот белок играет важную роль в контроле метаболизма жирных кислот. А если более подродбно, то он катализирует реакцию превращения фосфатидной кислоты в диацилглицерол через триглицериды, а также реакции биосинтеза фосфатидилхолина и фосфатидилэтаноламина.

    Этот фермент относится к классу гидролаз.

    Также данная программа позволяет узнать информацию и локализации экспрессии белка.

    Данный белок имеет внутриклеточную локализацию, он экспрессируется в цитоплазме в различных тканях, однако повышенная экспрессия наблюдается в печени и желудочно-кишечном тракте. Также высокий уровень экспрессии белка наблюдается в почках и плаценте (рисунок 2)

    Рисунок 2
    Рисунок 2. Уровни экспрессии белка липина-2 в различных тканях. По горизонтали отложены различные ткани (органы). По вертикали разные уровни экспрессии белка.

    Также можно пронаблюдать за локализацией экспрессии РНК. Уровень экспрессии РНК в печени сильно преобладает над экспрессией в других тканях (рисунок 3).

    Рисунок 3
    Рисунок 3. Уровни экспрессии РНК в различных тканях. По горизонтали отложены различные ткани (органы). По вертикали уровень экспрессии (мера - nTPM (transcripts per million)).

    Также из выдачи можно узнать, что LPIN2 является маркером для прогнозирования так называемых опухолей головы и шеи (к ним, например, относятся опухоли языка, глотки, слюнных желез и т.д.) и светлоклеточного рака почки.

    Для краткого обобщения экспрессии РНК и белка используется анатограмма (рисунок 3)

    Рисунок 3
    Рисунок 3. Уровни экспрессии РНК и белка в различных тканях в виде анатограммы - "карты" человеческого организма (слева – женщина, справа – мужчина), где красным цветом отмечены области (ткани), где наблюдается экспрессия. При этом уровень экспрессии отображается насыщенностью цвета.

    Более того, в данной базе данных можно найти большое количество очень красивых изображений. Например, при упоминании различных тканей часто рядом прикрепляется изображение её гистологического среза. Ещё можно встретить изображения окрашенных клеток под микроскопом - в общем, очень визуально приятно.

    Мне очень понравилось работать с этой базой данных. Веб-интерфейс очень удобный, все понятно (а даже если непонятно – везде есть выплывающие подробные объяснения). Информация структурированная. Но что самое главное, на мой взгляд, информация подкреплена визуально в виде различных графиков, гистограмм, таблиц, изображений, что значительно упрощает восприятие новой информации.

    Общие выводы

    Я проанализировала выданный мне список ID генов при помощи GO. В результате стало понятно, что список генов неслучаен: все они связаны с метаболизмом и биосинтезом фосфолипидов. То есть данная база данных дала общее представление о взяимосвязи этих генов.

    Далее они из генов был проанализировал в The Human Protein Atlas. В итоге я узнала локализацию экспресии РНК и белка, обнаружила некоторые интересные факты, получила эстетическое удовольствие.

    В целом, обе базы очень информативны и удобны в использовании.