Нуклеотидные банки данных
Знакомство со структурой банка RefSeq посредством поисковой системы SRS
С помощью поисковой системы SRS был получен список записей банка RefSeq, которые относятся к пекарским дрожжам Saccharomyces cerevisiae. Кроме 16-ти хромосом генома, список записей для которых представлен ниже, были найдены две записи, соответствующие двухмикронной плазмиде и геному митохондрии. В списке для каждой записи приведен Accession RefSeq, описание записи и длина (в парах нуклеотидов).REFSEQ:NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ:NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ:NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ:NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ:NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ:NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ:NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ:NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ:NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ:NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ:NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ:NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ:NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ:NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ:NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ:NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066В качестве примера для дальнейшей работы мне была дана шестая хромосома, имеющая следующие характеристики:
- длина: 270 161 bp
- всего генов: 141; из них: белков 127, т-РНК 10, не кодирующих РНК 4
- также содержит: 4 центромеры, 2 теломеры, 1 мобильный элемент
-
не содержит интронов, располагается на прямой цепи:
STE2, CDS 82580..83875, product=Ste2 -
не содержит интронов, располагается на обратной цепи:
SEC53, CDS complement(43628..44392), product=phosphomannomutase SEC53 -
содержит хотя бы один интрон, располагается на прямой цепи:
HAC1, CDS join(75179..75839,76092..76147), product=Hac1p -
содержит хотя бы один интрон на обратной цепи:
RPL22B, CDS complement(join(64243..64599,64921..64932)), product=ribosomal 60S subunit protein L22B
Получение последовательности, кодирующей заданный белок
В этом задании вернёмся к любимому мною после первых двух семестров белку CISY_BACSU, для которого на этот раз мы получим последовательность гена с помощью поиска по нуклеотидной базе данных. Будем использовать программы пакета EMBOSS.- C помощью команды entret sw:CISY_BACSU получаем запись из Swiss-Prot со всей информацией о белке, в которой находим строку, где указан идентификатор нуклеотидной последовательности для базы EMBL - U05256 (таких идентификаторов может быть несколько, так как запись в EMBL соответствует не отдельному гену, а результату одного эксперимента).
- Теперь получим запись из EMBL по найденному идентификатору. Команда entret embl:U05256 поможет нам в этом. В полученной записи содержится информация о генах двух белков: цитратсинтазе I и её репрессоре. Из него узнаём границы CDS интересующего нас гена citA (1131..2231) и то, что ген расположен на прямой цепи.
- Используя команду seqret -sask получу фрагмент последовательности EMBL, кодирующий мой белок. Сохраняю его в формате .fasta с названием CISY_BACSU.
Выравнивание белков и их генов
Для белка CISY_BACSU и его гомолога CISY_BACCO (из Bacillus coagulans) получим выравнивание их последовательностей, а также последовательностей кодирующих их генов с помощью проограммы needle (штрафы за появление и удлинение пропуска стандартные). Затем произведём выравнивание генов с помощью команды tranalign, которая позволяет выравнивать последовательности генов, если наперёд задано выравнивание белков, с этих генов транслируемых.Результаты:
- Выравнивание белков с помощью needle: ССЫЛКА
- Выравнивание генов с помощью needle: ССЫЛКА
- Выравненные с помощью tranalign последовательности генов: ССЫЛКА
Поиск в нуклеотидном банке NCBI по имени гена
В качестве примера для запроса в NCBI был выбран ген дрожжей RPL22B, который уже встречался нам в первой части этой работы. О результатах, выданных при поиске, могу отметить следующее.- Найдено всего 53 результата по данному запросу.
- Найдены не только записи содержащие ген из Saccharomyces cerevisiae, но и некоторые записи, относящиеся к другим видам дрожжей (Kazachstania africana, Candida orthopsilosis и др.). На мой взгляд, это хорошо, так как сразу можно увидеть гомологов этого гена в других организмах, ведь гены с одинаковой функцией обозначаются обычно одинаково.
- Ген находится в записях различного типа: это может быть как вся хромосома, так и запись для полного генома или же просто один отдельный ген (это последовательность mRNA). Это позволяет понять окружение гена, его локализацию, экзон-интронную структуру и другие моменты.
Дата последнего обновления: 17.11.2013
© Dmitry Travin, 2013