Нуклеотидные банки данных


Задание 1. Описание сборки генома эукариотического организма.


Жираф(Giraffa camelopardalis) является одним из самых высоких животных планеты. Обитает в саваннах Африки. Отличительная особенность жирафа - это, конечно, длина его шеи, хотя как и у всех млекопитающих, у них лишь семь шейных позвонков. Интересно, что рисунок на шерсти жирафа индивидуален, например, как отпечатки пальцев у человека. Известно 6 подвидов жирафов.

Рис. 1.Жираф(Giraffa camelopardalis). Фотография Zooclub.ru

Таблица 1. Информация о сборке генома жирафа.

Assembly name (сборка)GFE
RefSeqn/a
Assembly level (уровень сборки)Scaffold
Длина последовательности2,473,180,627
Число скэффолдов78,945
N50 скэффолдов3,153,258
L50 скэффолдов221
Число контигов253,969
N50 контигов25,056
L50 контигов29,026
PubMed DOI: 10.1038/ncomms11519
Ссылка на контиг SJXV01000001.1

Задание 2. Последовательность CDS одного из прокариотических вирусов.


Для выполнения работы был выполнен поиск в NCBI: (("Siphoviridae"[Organism]) AND 00000040000[SLEN] : 00000050000[SLEN]) AND (complete[All Fields] AND genome[All Fields]). Полуичлось 2810 полных геномов различных вирусов семейства Siphoviridae. Количество находок GenBank: 2,068, RefSeq: 661. Я выбрала геном Mycobacterium phage Brujita.


Таблица 2. Информация о сборке генома вируса.

AC FJ168659
Название, TaxID 561996
Тип геномаDNA linear
Хозяин вирусаMycobacterium smegmatis, Mycobacterium tuberculosis
Cсылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) fasta файл

ДНК у данного вируса - двуцепочечная. Файл с участками генома, кодирующими белки, был получен в следующей последовательности: Send to Coding sequences, FASTA Nucleotide, Create file. Формат файла был вручную изменен с .txt на .fasta.

Задание 3. Описание пяти ключей, используемых в таблице локальных особенностей.


Таблица 3. Feature keys

Ключ Описание Пример AC
STSSequence tagged site. Последовательность ДНК небольшого размера, которая была получена с помощью ПЦР. Расположение генома можно построить по порядку расположения STS STS 370143..370951 /standard_name="Xba14" /db_xref="UniSTS:470777" NC_006685.1
ncRNAГен, не кодирующий белок. Результатам транскрипиции является не тРНК и не рРНК. ncRNA /ncRNA_class="lncRNA" /gene="COL18A1-AS2" /product="COL18A1 antisense RNA 2" /transcript_id="NR_052004.1" /db_xref="GeneID:100874236" /db_xref="HGNC:HGNC:40155" 3358..3363 NC_000002.12
mRNAИнформационная РНК; включает 5'не транслируемую область (5'UTR), кодирующие последовательности (CDS, экзон) и 3'-нетранслируемая область (3'UTR);.complement(67265..67390) /gene="ssrA" NC_006685.1
rep_originОбозначает участок последовательности, на котором происходит начало репликации.5160..5191 /note="region of light strand origin of replication" V00711.1
misc_RNAЛюбые транскрипты, которые не подходят под определения других feature keys для РНК(prim_transcript, precursor_RNA, mRNA, 5'UTR, 3'UTR, exon, CDS, sig_peptide, transit_peptide, mat_peptide, intron, polyA_site, ncRNA, rRNA and tRNA).join(539636..540073,540849..540956,541819..543839) /gene="LOC107971886" /product="uncharacterized LOC107971886, transcript variant X3" /note="Derived by automated computational analysis using gene prediction method: Gnomon. Supporting evidence includes similarity to: 1 mRNA, 1 EST, and 75% coverage of the annotated genomic feature by RNAseq alignments" /transcript_id="XR_001714724.1" /db_xref="GeneID:107971886" NR_052004.1

Литература.

  1. Zooclub.ru
  2. https://www.insdc.org/documents/feature-table#3.2