• Главная
  • Обо мне
  • Семестры
    Семестр 1
    Семестр 2
    Семестр 3
    Семестр 4
    Семестр 5
    Семестр 6
  • Проекты
  • Заметки
  • Ссылки
A- и В-формы ДНК. Структура РНК Отредактировано 22/09/13
Семестр 1
Семестр 2
Семестр 3
Семестр 4
Семестр 5
Семестр 6

Нуклеотидные банки данных


SRS (Sequence Retrieval System) – это поисковая система, спомощью которой можно искать данные в различных банках данных.

NCIB’s Reference Sequence (RefSeq) - это база данных, которая содержит последовательности белков и нуклеиновых кислот. Здесь можно найти аннотацию к геному, его характеристики, а также информацию об изменении последовательности и данные исследований экспрессии (см. статью о RefSeq)

Например, найдем в RefSeq посредством поисковой системы SRS хромосомы дрожжей Saccharomyces cerevisiae.

Для этого зададим следующие параметры:


  • Organism Name: Saccharomyces cerevisiae;
  • Molecule: DNA.

При таком поиске был получен список всех хромосом (Таблица 1).


Таблица 1


Список хромосом дрожжей Saccharomyces cerevisiae

В таблице были перечислены 16 записей, соответствующих хромосомам, 1 запись, соответствующая двухмикронной плазмиде, и 1 запись, соответствующая полному гемону митохондрии.

Выберем 13ую хромосому в списке. Это хромосома XIII (NC_001145). Перейдя по ссылке RefSeq Genome (Release):NC_001145, можно найти всю интересующую информацию о выбранной хромосоме:

  • длина (Sequence Length): 924431
  • количество генов (gene): 496
  • тРНК (tRNA): 21

В записи выбранной хромосомы были найдены примеры генов в разных положениях (Таблица 2)

Таблица 2


Примеры генов дрожжей Saccharomyces cerevisiae

Название гена Координаты CDS в записи Продукт гена
Ген, который находится на прямой цепи и не имеет интронов "CSI1" CDS 323300..324187 product="Csi1p"
Ген, который находится на обратной цепи и не имеет интронов "PEX12" CDS complement(324236..325435) product="ubiquitin-protein ligase peroxin 12"
Ген, который находится на прямой цепи и имеет хотя бы один интрон HAC1 CDS join(75179..75839,76092..76147) product="Hac1p"
Ген, который находится на обратной цепи и имеет хотя бы один интрон ERV41 CDS complement(join(139063..140090,140184..140214)) product="Erv41p"

Если ген находится на обратной цепи, то в записи присутствует «complement». При наличии нескольких экзонов в гене их координаты перечисляются в скобках после слова «join».


Получение последовательности, кодирующей заданный белок


Поиском по нуклеотидным базам данных получим последовательность белка TENI_BACSU с идентификатором в UniProt: P25053.

Для поиска будем использовать пакет программ EMBOSS. Выполнив команду entret sw:TENI_BACSU, можно получить всю необходимую информацию об исследуемом белке, которая содержит и идентификатор записи EMBL (M73546), в которой описан ген этого белка.

Полученный идентификатор позволяет нам получить запись из базы EMBL с помощью команды entret embl:M73546. Запись содержит информацию о гене, кодирующем изучаемый белок. Из этой записи получаем необходимую информацию:

  • границы кодирующего участка (CDS): 1092..1709
  • направление: расположен на прямой цепи

Для получения участка гена, кодирующего исследуемый белок, используем команду seqret –sask. Полученный фрагмент сохранен в fasta-формате в файле TENI_BACSU.fasta.


Поиск в нуклеотидном банке NCBI по имени гена


Для поиска в банке NCBI был выбран ген PEX12 (см. Таблицу 2).

На запрос было выведено 1263 результата. Кроме того, данный ген был найден в других организмах таких, как Homo sapiens, Mus musculus, Bos taurus и др. Результат поиска содержит разнообразную информацию об исследуемом гене: можно найти полногеномную запись, просто отдельный ген, всю хромосому и т.д.


© Малеева Александра