Задание 1. Знакомство со структурой банка RefSeq посредством поисковой системы SRS
а) С помощью SRS вывели список хромосом дрожжей Saccharomyces cerevisiae:
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
б) Номер моей хромосомы - 10.
Длина хромосомы | 745751 |
Количество генов в ней | 388 |
Количество тРНК | 24 |
в) Примеры нескольких типов генов в 10 хромосоме привдены в таблице (для каждого гена приведено название и координаты соответствующей CDS записи) :
Ген, который находится на прямой цепи и не имеет интронов | 11475..16124 gene="VTH2" |
Ген, который находится на обратной цепи и не имеет интронов | complement(8776..9138) gene="PAU1" |
Ген, который находится на прямой цепи и имеет хотя бы один интрон | gene="RPS14B" join(73787..73796,74205..74611) |
Ген, который находится на обратной цепи и имеет хотя бы один интрон. | gene="RPS21B" complement(join(156550..156789,157250..157273)) |
Задание 2. Получение последовательности, кодирующей заданный белок
В задании требовалось получить последовательность, кодирующую белок PDXK_BACSU (индентификатор в SwissProt). C помощью команды entret sw:pdxk_bacsu получили запись о нашем белке в SwissProt, в нем нашли его идентификатор X73124 в базе данных EMBL. Получили файл с полной записью EMBL командой entret embl:X73124, нашли в нем границы и направление кодирующего участка "CDS", а затем командой seqret x73124.entret -sask вырезали участок, кодирующий белок.Файл с кодирующим участком: файл
Задание 3. Выравнивание белков и их генов
С помощью программы needle для белка PDXK_BACSU и его гомолога PDXK_STAEQ были созданы выравнивания:
Были использованы стандартные параметры: Gap opening penalty - 10 и Gap extension penalty - 0.5.
Так же было создано выравнивание последовательностей генов с помощью программы tranalign. Эта программа создает выравнивание генов из готового выравнивания данных белков. На вход программе подается набор невыравненных нуклеотидных последовательностей и набор соответствующих белковых. На выходе последовательности выравненных генов:файл
Выравнивания с помощью needle отличались, т.к. при выравнивании последовательностей генов не учитывается избыточность генетического кода. Выравнивание с помощью tranalign совпадает с белковым needle, так как построено по нему.