Знакомство со структурой банка RefSeq посредством поисковой системы SRS
Получение списка хромосом дрожжей Saccharomyces cerevisiae посредством сервиса SRS
При помощи сервиса SRS был осуществлен поиск по базе refseq_(DNA) с ограничением поиска по организму Saccharomyces cerevisiae, только молкулы DNA, содержащие в описании chromosome. Результат представлен в Таблице 1.
RefSeq_DNA (release) | Accession | Description | SeqLength |
REFSEQ_DNA:NC_001133 | NC_001133 | Saccharomyces cerevisiae S288c chromosome I, complete sequence. | 230218 |
REFSEQ_DNA:NC_001134 | NC_001134 | Saccharomyces cerevisiae S288c chromosome II, complete sequence. | 813184 |
REFSEQ_DNA:NC_001135 | NC_001135 | Saccharomyces cerevisiae S288c chromosome III, complete sequence. | 316620 |
REFSEQ_DNA:NC_001136 | NC_001136 | Saccharomyces cerevisiae S288c chromosome IV, complete sequence. | 1531933 |
REFSEQ_DNA:NC_001137 | NC_001137 | Saccharomyces cerevisiae S288c chromosome V, complete sequence. | 576874 |
REFSEQ_DNA:NC_001138 | NC_001138 | Saccharomyces cerevisiae S288c chromosome VI, complete sequence. | 270161 |
REFSEQ_DNA:NC_001139 | NC_001139 | Saccharomyces cerevisiae S288c chromosome VII, complete sequence. | 1090940 |
REFSEQ_DNA:NC_001140 | NC_001140 | Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. | 562643 |
REFSEQ_DNA:NC_001141 | NC_001141 | Saccharomyces cerevisiae S288c chromosome IX, complete sequence. | 439888 |
REFSEQ_DNA:NC_001142 | NC_001142 | Saccharomyces cerevisiae S288c chromosome X, complete sequence. | 745751 |
REFSEQ_DNA:NC_001143 | NC_001143 | Saccharomyces cerevisiae S288c chromosome XI, complete sequence. | 666816 |
REFSEQ_DNA:NC_001144 | NC_001144 | Saccharomyces cerevisiae S288c chromosome XII, complete sequence. | 1078177 |
REFSEQ_DNA:NC_001145 | NC_001145 | Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. | 924431 |
REFSEQ_DNA:NC_001146 | NC_001146 | Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. | 784333 |
REFSEQ_DNA:NC_001147 | NC_001147 | Saccharomyces cerevisiae S288c chromosome XV, complete sequence. | 1091291 |
REFSEQ_DNA:NC_001148 | NC_001148 | Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. | 948066 |
Таблица 1. Данные о хромосомах дрожжей Saccharomyces cerevisiae из базы refseq_(DNA).
Подробная информация о VII хромосоме дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS
Данне о хромосоме представленны в Таблице 2. Для заданной хромосомы запишите ее длину, количество генов и тРНК в ней.Хромосома | длина | количество генов и тРНК | количество тРНК |
VII | 1090940 BP | 574 | 36 |
Таблица 2. Данные о VII хромосоме дрожжей Saccharomyces cerevisiae из базы refseq_(DNA).
Подробная информация о некоторых генах из VII хромосомы дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS
Информация о некоторых генах из исследуемой хромосомы представлена в Таблице 3.свойства гена | название | координаты CDS |
находится на прямой цепи и не имеет интронов | COS12 | 2790..3932 |
находится на обратной цепи и не имеет интронов | PAU11 | complement(6290..6652) |
находится на прямой цепи и имеет хотя бы один интрон | TAN1 | join(62075..62131,62190..63002) |
находится на обратной цепи и имеет хотя бы один интрон | MND1 | complement(join(156543..157199,157283..157285)) |
Таблица 3. Данные о некоторых генах из VII хромосомы дрожжей Saccharomyces cerevisiae полученная посредством сервиса SRS из базы refseq_(DNA).
Получение последовательности, кодирующей заданный белок
Для получения участка гена, кодирующиего белок CLPQ_BACSU была проведена череда следующих операций:- Запущена программа: entret sw:CLPQ_BACSU -outfile sw_CLPQ_BACSU
- Осуществлен поиск: grep -e "DR *EMBL" sw_CLPQ_BACSU
результатом стал AC EMBL:U13634 - Запущена программа: entret embl:U13634 -outfile embl_CLPQ_BACSU
- Осуществлен поиск по файлу embl_CLPQ_BACSU
результатом стали координаты CDS на прямой цепи: 1220..1765 - Запущена программа: seqret -sask
входящий файл: embl_CLPQ_BACSU
начало 1220
конец 1765
обраное направление: N (нет)
в результате получен файл CLPQ_BACSU_nucl_gene.fasta
CLPQ_BACSU_nucl_gene.fasta
Выравнивание белков и их генов
Для выравнивания с белком CLPQ_BACSU был выбран его гомолог CLPQ_BACLD, найденный во втором семестре в практикуме по SRS.CLPQ_BACLD.fasta
Так же была получена нуклеотидная последовательность гомолога.
CLPQ_BACLD_nucl.fasta
Выравнивание последовательностей белков программой needle
Для получения выравнивания последовательностей белков программой needle была запущена следующая командаneedle
needle CLPQ_BACSU.fasta CLPQ_BACLD.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD.fasta -aformat_outfile fasta -gapopen 10 -gapextend 0.5
needle CLPQ_BACSU.fasta CLPQ_BACLD.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta -gapopen 10 -gapextend 0.5
CLPQ_BACSU_vs_CLPQ_BACLD.fasta
Результатом является также более наглядный файл с выравниванием в srspair формате CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta
CLPQ_BACSU_vs_CLPQ_BACLD_srspair.fasta
Выравнивание последовательностей их генов программой needle
Для получения выравнивания последовательностей генов белков программой needle была запущена следующая командаneedle
needle CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_nucl.fasta -aformat_outfile fasta -gapopen 10 -gapextend 0.5
needle CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta -outfile CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta -gapopen 10 -gapextend 0.5
CLPQ_BACSU_vs_CLPQ_BACLD_nucl.fasta
Результатом является также более наглядный файл с выравниванием в srspair формате CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta
CLPQ_BACSU_vs_CLPQ_BACLD_nucl_srspair.fasta
Выравнивание последовательностей их генов программой tranalign
Для получения выравнивания последовательностей генов белков на основе выравненных белковых последовательностей программой tranalign была запущена следующая командаneedle
cat CLPQ_BACSU_nucl_gene.fasta CLPQ_BACLD_nucl.fasta >CLPQ_BACSU_and_CLPQ_BACLD_nucl.fasta
tranalign -asequence CLPQ_BACSU_and_CLPQ_BACLD_nucl.fasta -bsequence CLPQ_BACSU_vs_CLPQ_BACLD.fasta -outseq CLPQ_BACSU_vs_CLPQ_BACLD_nucl_translign.fasta
CLPQ_BACSU_vs_CLPQ_BACLD_nucl_translign.fasta
Сравнение полученных выравниваний
На основании сравнения полученных данных о выравнивании белков программой needle и выравниваний генов, кодирующих эти белки, программой needle, кажется что, вырвнивание генов не очень хорошего качества (присутствуют гепы).
Однако при выравнивании генов с помощью программы transalig выравнивание получается "хорошим", без гепов (как и выравнивание белков), это говорит о том, что оно (выравнивание, полученное программой transalig) больше отражает биологическое значение выравнивания, нежели парное выравнивание по алгоритму Нидлмана-Вунша с критерием: увеличение веса выравнивания, т.к. выравнивание белков (по которому восстанавливается нуклеотидное) более устойчиво к возможности неверной (с биологической точки зрения) работы алгоритма Нидлмана-Вуншна из-за большего разнообразия алфавита (в выравнивании белков-20(в основном), в выравнивании нуклеотидов-4).
Поиск в нуклеотидном банке NCBI по имени гена
Возьмем интересующий нас ген COS12 из задания 1.
Произвели поиск в нуклеотидной базе данных ncbi, результат представлен ниже.
результат поиска гена COS12
Как видно из результата поиска, найдено множество записей в базе данных, где есть ген с именем COS12. Среди них есть и хромосома из которой он и был взят в задании 1. Кроме этого явно видно налиие данного гена в различных классах записей (полногеномное секвенирование, просто ген, участок транскриптома и т.д.) что весьма удобно для сбора информации. Из минусов только то, что таким образом мы можем найти данные о гене, прошедшем хорошую аннотацию по всем правилам. Кроме этого возможна дополнительная настройка параметров поиска в режиме Advanced search, что позволяет вести поиск более тонко.