Ниже представлен список хромосом дрожжей Saccharomyces cerevisiae, полученный с помощью поисковой системы SRS.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Мне необходимо было получить информацию о хромосоме №7. Ее длина 1 090 940 пар азотистых оснований. В хромосоме содержится 530 генов, закодировано 36 последовательностей тРНК.
Гены, содержащиеся в хромосоме, могут располагаться как на прямой, так и на обратной цепи, содержать или не содержать интроны. В таблице 1 приведены примеры генов для каждого случая.
Таблица 1. Примеры генов из хромосомы №7.
Цепь |
Интроны |
Название |
Координаты |
Прямая | Нет | COS12 | 2790..3932 |
Обратная | Нет | MNT2 | complement(12481..14157) |
Прямая | Есть | TAN1 | join(62075..62131,62190..63002) |
Обратная | Есть | HFM1 | complement(join(27921..31426,31579..31636)) |
С помощью опции ID Mapping на сервисе UniProt я получил ID белка Bontoxilysin A (см. первый семестр) — Q45894. Используя программу entret пакета EMBOSS я получил запись этого белка, в которой содержалась ссылка на запись EMBL — x73423. С помощью entret я получил эту запись и с помощью программы seqret вырезал из нее последовательность ДНК, кодирующую мой белок (участок с 97 по 3987 нуклеотиды). Последовательность сохранена в файле botA.fasta.
Обратившись к практикуму второго семестра, в котором с помощью Blast я находил гомологов белка Bontoxilysin A, я выбрал для данной работы белок Bontoxilysin D. Проделав все действия, описанные в предыдущем разделе, с этим белком, я построил с помощью программы needle (см. второй семестр) выравнивания кодирующих последовательностей (генов) двух нейротоксинов (см.рис.1) и аминокислотных последовательностей (см.рис.2). Затем я построил выравнивание кодирующих последовательностей по аминокислотным, используя программу tranalign (см.рис.3). Из представленных ниже изображений выравниваний, полученных с помощью программы jalview, видно, что выравнивание генов, построенное по аминокислотным последовательностям, корректнее, чем выравнивание непосредственно двух генов (может показаться, что непосредственное выравнивание лучше сопоставляет последовательности, однако часто это может быть подгонка, к тому же в этом выравнивании присутствуют гэпы, длина которых не кратна 3, что не имеет смысла). При построении выравнивания генов с опорой на аминокислотные последовательности выравниваются не отдельные азотистые основания, а триплеты, длина гэпов кратна 3.
Рисунок 1. Выравнивание генов.
Рисунок 2. Выравнивание последовательностей белков.
Рисунок 3. Выравнивание генов с опорой на выравнивание последовательностей белков.
Я искал ген MNT2. Поиск выдал 153 соответствия, среди которых обнаружились как искомые гены разных штаммов Saccharomyces cerevisiae, так и полные последовательности хромосомы №7; кроме того, в выдачу попали гены, кодирующие белки (в том числе гипотетические) других грибов: Candida albicans, Candida orthopsilosis, Candida glabrata, Candida dubliniensis, Lichtheimia corymbifera, Kluyveromyces marxianus, Cyberlindnera fabianii, Millerozyma farinosa, Pichia sorbitophila, Penicillium chrysogenum, Saccharomyces kudriavzevii, Aspergillus niger, Trichoderma atroviride, Lachancea thermotolerans — и не только грибов: гены вируса HIV-1, симбионта термитов, макаки, бактерии Burkholderia pseudomallei. Вывод: поиск по имени гена наверняка выдаст тот ген, который имелся в виду, но разбавит выдачу огромным количеством других записей, которые могут относиться как к относительно близким филогенетически организмам, так и представителям других царств.