Нуклеотидные

банки данных

Семестры • Третий семестр • Нуклеотидные банки данных

Поисковая система SRS

Ниже представлен список хромосом дрожжей Saccharomyces cerevisiae, полученный с помощью поисковой системы SRS.

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

Мне необходимо было получить информацию о хромосоме №7. Ее длина 1 090 940 пар азотистых оснований. В хромосоме содержится 530 генов, закодировано 36 последовательностей тРНК.

Гены, содержащиеся в хромосоме, могут располагаться как на прямой, так и на обратной цепи, содержать или не содержать интроны. В таблице 1 приведены примеры генов для каждого случая.

Таблица 1. Примеры генов из хромосомы №7.

Цепь	Интроны	Название	Координаты
Прямая	Нет	COS12	2790..3932
Обратная	Нет	MNT2	complement(12481..14157)
Прямая	Есть	TAN1	join(62075..62131,62190..63002)
Обратная	Есть	HFM1	complement(join(27921..31426,31579..31636))

Получение последовательности, кодирующей заданный белок

С помощью опции ID Mapping на сервисе UniProt я получил ID белка Bontoxilysin A (см. первый семестр) — Q45894. Используя программу entret пакета EMBOSS я получил запись этого белка, в которой содержалась ссылка на запись EMBL — x73423. С помощью entret я получил эту запись и с помощью программы seqret вырезал из нее последовательность ДНК, кодирующую мой белок (участок с 97 по 3987 нуклеотиды). Последовательность сохранена в файле botA.fasta.

Выравнивание белков и их генов

Обратившись к практикуму второго семестра, в котором с помощью Blast я находил гомологов белка Bontoxilysin A, я выбрал для данной работы белок Bontoxilysin D. Проделав все действия, описанные в предыдущем разделе, с этим белком, я построил с помощью программы needle (см. второй семестр) выравнивания кодирующих последовательностей (генов) двух нейротоксинов (см.рис.1) и аминокислотных последовательностей (см.рис.2). Затем я построил выравнивание кодирующих последовательностей по аминокислотным, используя программу tranalign (см.рис.3). Из представленных ниже изображений выравниваний, полученных с помощью программы jalview, видно, что выравнивание генов, построенное по аминокислотным последовательностям, корректнее, чем выравнивание непосредственно двух генов (может показаться, что непосредственное выравнивание лучше сопоставляет последовательности, однако часто это может быть подгонка, к тому же в этом выравнивании присутствуют гэпы, длина которых не кратна 3, что не имеет смысла). При построении выравнивания генов с опорой на аминокислотные последовательности выравниваются не отдельные азотистые основания, а триплеты, длина гэпов кратна 3.

Рисунок 1. Выравнивание генов.

Рисунок 2. Выравнивание последовательностей белков.

Рисунок 3. Выравнивание генов с опорой на выравнивание последовательностей белков.

Поиск в нуклеотидном банке NCBI по имени гена

Я искал ген MNT2. Поиск выдал 153 соответствия, среди которых обнаружились как искомые гены разных штаммов Saccharomyces cerevisiae, так и полные последовательности хромосомы №7; кроме того, в выдачу попали гены, кодирующие белки (в том числе гипотетические) других грибов: Candida albicans, Candida orthopsilosis, Candida glabrata, Candida dubliniensis, Lichtheimia corymbifera, Kluyveromyces marxianus, Cyberlindnera fabianii, Millerozyma farinosa, Pichia sorbitophila, Penicillium chrysogenum, Saccharomyces kudriavzevii, Aspergillus niger, Trichoderma atroviride, Lachancea thermotolerans — и не только грибов: гены вируса HIV-1, симбионта термитов, макаки, бактерии Burkholderia pseudomallei. Вывод: поиск по имени гена наверняка выдаст тот ген, который имелся в виду, но разбавит выдачу огромным количеством других записей, которые могут относиться как к относительно близким филогенетически организмам, так и представителям других царств.