REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Мне досталась XVI хромосома.
- Длина хромосомы: 948066 BP
- Количество генов белков (CDS): 464
- Количество тРНК: 17
В отличие от таких эукариотических организмов как человек, у дрожжей большинство генов не содержат интроны. Вот несколько примеров генов, входящих в состав генома дрожжей:
- ген, который находится на прямой цепи и не имеет интронов: FUM1, (47336..48802) - кодирует фумаразу
- ген, который находится на обратной цепи и не имеет интронов: COA2, complement(188307..188513) - кодирует фактор сборки цитохромоксидазы
- ген, который находится на прямой цепи и имеет хотя бы один интрон: RPL21B, join(406636..406646,407068..407539) - белок 60s субъединицы рибосомы
- ген, который находится на обратной цепи и имеет хотя бы один интрон: RPS6A, complement(join(377291..377995,378390..378395)) - белок 40s субъединицы рибосомы
Задание 2
В прошлом году я работала с белком CPA из бактерии Chlamydia trachomatis. Заданный мне код белка в RefSeq - YP_005816496.1. Идентификатор в UniprotKB (получен через Uniprot ID Mapping): D3UTE4. В записи Uniprot указаны соответствующие коды доступа соответствующего в EMBL: FN652779 - полный геном бактерии; CBJ15387.1 - запись белка. Через команду seqret была получена запись кодирующей части гена: [x] Координаты гена: 1010787..1012592.
Задание 3
В этом задании предлагалось сделать 3 выравнивания моего белка и какого-либо его гомолога. Я взяла гомолог из задания предыдущего семестра: chlamydial protease-like activity factor из Candidatus Protochlamydia amoebophila. Запись в Uniprot - M1VBL6, в EMBL - AB747349.1.
С помощью needle было получено парное выравнивание сначала последовательностей белков, а затем последовательностей генов CPA и его гомолога. Вначале выравнивания довольно схожи, но потом начинаются различия, что логично, т.к. при выравнивании нуклеотидных последовательностей гэпы не обязательно содержат число пропущенных позиций кратное трем => явное расхождение с выравниванием белков.
Команда tranalign строит выравнивание нуклеотидных последовательностей, исходя из данного выравнивания белков (которые я построила needle). В таком случае выравнивание отличается от построенного needle. Например, количество черточек в гэпах кратно трем, соответствуя числу пропущенных аминокислот.
Сравнение выравниваний, построенных needle и tranalign. Видно, что в гэпах needle число черточек не всегда кратно трем, а в tranalign - кратно. Выравнивания явно различаются.