Нуклеотидные банки данных

1 Описание сборки генома эукариотического организма

Для дальнейшей работы был выбран геном пекар­ских дрожжей (Saccharomyces cerevisiae). Это известный модельный организм из отдела сум­чатых грибов (Ascomycota). На примере дан­ного организ­ма можно изучать многие процессы свой­ствен­ные эу­кариотам. S. cerevisiae являются факуль­татив­ными анаэробами, что позволяет ис­следовать на этом организме дис­функцию мито­хондрий. Примечательно, что пекар­ские дрож­жи — первый эу­карио­тичес­кий организм, чей геном был полностью секвени­рован. Геном S. cerevisiae представлен 16 хромосомами и мтДНК.

Рис. 1
Рис. 1. Красивые клетки дрожжей с GFP и RFP метками.[1]

По запросу "Saccharomyces cerevisiae (baker's yeast)" было найдено 1 057 раз­личных сборок, из них 10 явля­ются полно­геном­ными. В соот­ветствии с информацией из файла README_assembly_summary.txt это означает, что все хро­мо­сомы без промежутков и не имеют ни одной серии из 10 или более неодно­знач­ных осно­ваний (N), нет неразме­щен­ных или нелокали­зован­ных скафолдов и все ожида­емые хромо­сомы присут­ствуют (т. е. сборка не отмечена как имеющая частич­ное пред­ставле­ние генома). Плаз­миды и ДНК органелл могут быть или не быть включен­ным в сборку, но если присут­ствуют, то после­до­ва­тель­нос­ти не имеют пропусков. Дан­ная сборка является референсной, т. е. отобран­ной вручную высоко­качествен­ной сборкой генома, которую опреде­лелили в качестве стан­дарта, с которыми срав­ниваются другие данные.

Характеристики выбранной сборки:

Название сборки:

АС (GenBank):

АС (RefSeq):

Длина последовательности:

Число хромосом:

Число скэффолдов:

Скэффолд N50:

Скэффолд L50:

Число контигов:

Контиг N50:

Контиг L50:

Содержание GC:

Уровень сборки:

R64

GCA_000146045.2

GCF_000146045.2

12.1 Mb

16

16

924.4 kb

6

16

924.4 kb

6

38%

Complete Genome

Параметр N50 равен длине контига (скэффолда), для которого половина (50%) всех нуклеотидов сборки содержится в контигах (скэффолдах) такой и большей длины. Параметр L50 равен наименьшему числу контигов (скэффолдов), в которых содержится половина (50%) всех нуклеотидов сборки.

2 Дополнительные задания

Имя файла Содержание файла
GCF_000146045.2_R64_assembly_report.txt информация о сборке (организм, геном, сведения о последовательностях)
GCF_000146045.2_R64_assembly_stats.txt статистика сборки (длина, длина без гэпов, количество контигов и скэффолдов, contig-N50, scaffold-L50, scaffold-N50, scaffold-N75, и scaffold-N90)
GCF_000146045.2_R64_cds_from_genomic.fna кодирующие последовательности, предсказанные на основе генома
GCF_000146045.2_R64_feature_count.txt статистика особенностей генома на основе GCF_000146045.2_feature_table.txt.
GCF_000146045.2_R64_feature_table.txt таблица особенностей генома
GCF_000146045.2_R64_genomic.fna нуклеотидные последовательности генома
GCF_000146045.2_R64_genomic.gbff последовательности генома с аннотацией
GCF_000146045.2_R64_genomic.gff аннотации последовательностей генома
GCF_000146045.2_R64_genomic.gtf аннотации последовательностей генома
GCF_000146045.2_R64_protein.faa последовательности белков
GCF_000146045.2_R64_protein.gpff белки с ссылками на источники аннотации
GCF_000146045.2_R64_rna.fna последовательности РНК
GCF_000146045.2_R64_rna.gbff РНК с ссылками на источники аннотации
GCF_000146045.2_R64_rna_from_genomic.fna РНК, предсказанные на основе генома
GCF_000146045.2_R64_translated_cds.faa автоматическая трансляция белков из GCF_000146045.2_cds_from_genomic.fna

Среди последовательностей представленных в файле *_cds_from_genomic.fna была найдена единственная последовательность с нестандарт­ным старт-кодоном ATA. Это ген AI5_BETA, который кодирует гипотетическую ДНК-эндонуклеазу AI5β.[2]

На основе информации из файла *_assembly_report.txt построен график, показываю­щий убывание длины каждого фрагмента генома. На графике отмечена точка, отвечающая контигу, на который указывают величины N50 и L50. Также из этого файла получена информация о наличии в сборке генома митохондрий.

Рис. 2
Рис. 2. График, показывающий убывание длины каждого фрагмента генома

Характеристики генома митохондрий:

Идентификатор записи (ACCESSION):

Тип органеллы:

Число кодирующих последовательностей (CDS):

Число генов рРНК:

Число генов тРНК:

Число генов других нкРНК:

Число псевдогенов:

GCF_000189485.1

митохондрия

19

2

24

1

0

Некодирующая РНК RPM1 является частью комплекса митохондриальной РНКазы P, отвечает за процессинг 5’-конца тРНК.[3]

СПИСОК ЛИТЕРАТУРЫ

  1. 1🠕 Iuliia E. Karavaeva et al., Mitochondrial depolarization in yeast zygotes inhibits clonal expansion of selfish mtDNA
  2. 1🠕 RPM1 [Saccharomyces cerevisiae S288C] - Gene - NCBI
  3. 1🠕 AI5_BETA intron-encoded DNA endonuclease aI5 beta [Saccharomyces cerevisiae S288C] - Gene - NCBI