Лого сайта
Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

Получение списка хромосом дрожжей Saccharomyces cerevisiae посредством сервиса SRS

При помощи сервиса SRS был осуществлен поиск по базе refseq_(DNA) с ограничением поиска по организму Saccharomyces cerevisiae, только молкулы DNA, содержащие в описании chromosome. Результат представлен в Таблице 1.

RefSeq_DNA (release) Accession Description SeqLength
REFSEQ_DNA:NC_001133NC_001133Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218
REFSEQ_DNA:NC_001134NC_001134Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184
REFSEQ_DNA:NC_001135NC_001135Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620
REFSEQ_DNA:NC_001136NC_001136Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933
REFSEQ_DNA:NC_001137NC_001137Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874
REFSEQ_DNA:NC_001138NC_001138Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161
REFSEQ_DNA:NC_001139NC_001139Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940
REFSEQ_DNA:NC_001140NC_001140Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643
REFSEQ_DNA:NC_001141NC_001141Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888
REFSEQ_DNA:NC_001142NC_001142Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751
REFSEQ_DNA:NC_001143NC_001143Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816
REFSEQ_DNA:NC_001144NC_001144Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177
REFSEQ_DNA:NC_001145NC_001145Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431
REFSEQ_DNA:NC_001146NC_001146Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333
REFSEQ_DNA:NC_001147NC_001147Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291
REFSEQ_DNA:NC_001148NC_001148Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066

Таблица 1. Данные о хромосомах дрожжей Saccharomyces cerevisiae из базы refseq_(DNA).

Подробная информация о VII хромосоме дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS

Данне о хромосоме представленны в Таблице 2. Для заданной хромосомы запишите ее длину, количество генов и тРНК в ней.
Хромосомадлинаколичество генов и тРНКколичество тРНК
VII1090940 BP57436

Таблица 2. Данные о VII хромосоме дрожжей Saccharomyces cerevisiae из базы refseq_(DNA).

Подробная информация о некоторых генах из VII хромосомы дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS

Информация о некоторых генах из исследуемой хромосомы представлена в Таблице 3.
свойства генаназваниекоординаты CDS
находится на прямой цепи и не имеет интроновCOS122790..3932
находится на обратной цепи и не имеет интроновPAU11complement(6290..6652)
находится на прямой цепи и имеет хотя бы один интронTAN1join(62075..62131,62190..63002)
находится на обратной цепи и имеет хотя бы один интронMND1 complement(join(156543..157199,157283..157285))

Таблица 3. Данные о некоторых генах из VII хромосомы дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS из базы refseq_(DNA).

Получение последовательности, кодирующей заданный белок

Для получения участка гена, кодирующиего белок CLPQ_BACSU была проведена череда следующих операций:
  1. Запущена программа: entret sw:CLPQ_BACSU -outfile sw_CLPQ_BACSU
  2. Осуществлен поиск: grep -e "DR *EMBL" sw_CLPQ_BACSU
    результатом стал AC EMBL:U13634
  3. Запущена программа: entret embl:U13634 -outfile embl_CLPQ_BACSU
  4. Осуществлен поиск по файлу embl_CLPQ_BACSU
    результатом стали координаты CDS на прямой цепи: 1220..1765
  5. Запущена программа: seqret -sask
    входящий файл: embl_CLPQ_BACSU
    начало 1220
    конец 1765
    обраное направление: N (нет)
    в результате получен файл CLPQ_BACSU_nucl_gene.fasta

CLPQ_BACSU_nucl_gene.fasta

Выравнивание белков и их генов

Для выравнивания с белком CLPQ_BACSU был выбран его гомолог CLPQ_BACLD, найденный во втором семестре в практикуме по SRS.

CLPQ_BACLD.fasta

Так же была получена нуклеотидная последовательность гомолога.

CLPQ_BACLD_nucl.fasta

Выравнивание последовательностей белков программой needle

Для получения выравнивания последовательностей белков программой needle была запущена следующая команда

needle

needle CLPQ_BACSU.fasta CLPQ_BACLD.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD.fasta -aformat_outfile fasta -gapopen 10 -gapextend 0.5
needle CLPQ_BACSU.fasta CLPQ_BACLD.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta -gapopen 10 -gapextend 0.5

Результатом является файл с выравниванием в fasta формате CLPQ_BACSU_vs_CLPQ_BACLD.fasta

CLPQ_BACSU_vs_CLPQ_BACLD.fasta


Результатом является также более наглядный файл с выравниванием в srspair формате CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta

CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta

Выравнивание последовательностей их генов программой needle

Для получения выравнивания последовательностей генов белков программой needle была запущена следующая команда

needle

needle CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_nucl.fasta -aformat_outfile fasta -gapopen 10 -gapextend 0.5
needle CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta -gapopen 10 -gapextend 0.5

Результатом является файл с выравниванием в fasta формате CLPQ_BACSU_vs_CLPQ_BACLD.fasta

CLPQ_BACSU_vs_CLPQ_BACLD_nucl.fasta


Результатом является также более наглядный файл с выравниванием в srspair формате CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta

CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta

Выравнивание последовательностей их генов программой tranalign

Для получения выравнивания последовательностей генов белков на основе выравненных белковых последовательностей программой tranalign была запущена следующая команда

needle

cat CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta >CLPQ_BACSU_and_CLPQ_BACLD_nucl.fasta
tranalign -asequence CLPQ_BACSU_and_CLPQ_BACLD_nucl.fasta -bsequence CLPQ_BACSU_vs_CLPQ_BACLD.fasta -outseq CLPQ_BACSU_vs_CLPQ_BACLD_nucl_translign.fasta

Результатом является файл с выравниванием CLPQ_BACSU_vs_CLPQ_BACLD_nucl_translign.fasta

CLPQ_BACSU_vs_CLPQ_BACLD_nucl_translign.fasta

Сравнение полученных выравниваний

На основании сравнения полученных данных о выравнивании белков программой needle и выравниваний генов, кодирующих эти белки, программой needle, кажется что, вырвнивание генов не очень хорошего качества (присутствуют гепы).

Однако при выравнивании генов с помощью программы transalig выравнивание получается "хорошим", без гепов (как и выравнивание белков), это говорит о том, что оно (выравнивание, полученное программой transalig) больше отражает биологическое значение выравнивания, нежели парное выравнивание по алгоритму Нидлмана-Вунша с критерием: увеличение веса выравнивания, т.к. выравнивание белков (по которому восстанавливается нуклеотидное) более устойчиво к возможности неверной (с биологической точки зрения) работы алгоритма Нидлмана-Вуншна из-за большего разнообразия алфавита (в выравнивании белков-20(в основном), в выравнивании нуклеотидов-4).

Поиск в нуклеотидном банке NCBI по имени гена

Возьмем интересующий нас ген COS12 из задания 1.
Произвели поиск в нуклеотидной базе данных ncbi, результат представлен ниже.

результат поиска гена COS12

Как видно из результата поиска, найдено множество записей в базе данных, где есть ген с именем COS12. Среди них есть и хромосома из которой он и был взят в задании 1. Кроме этого явно видно налиие данного гена в различных классах записей (полногеномное секвенирование, просто ген, участок транскриптома и т.д.) что весьма удобно для сбора информации. Из минусов только то, что таким образом мы можем найти данные о гене, прошедшем хорошую аннотацию по всем правилам. Кроме этого возможна дополнительная настройка параметров поиска в режиме Advanced search, что позволяет вести поиск более тонко.