Банки нуклеотидных последовательностей.
1. Качество сборки генома Apodemus sylvaticus (European woodmouse):
- 1 сборка генома
- 1 проект по секвенированию организма; 1 образец
- BIOSAPMLE: SAMN03863808; взят у взрослой мыши из печени в Англии
- BIOPROJECT: PRJNA290427; проект по собиранию генома лесной мыши с нуля в ходе исследования эволюции и разнообразия имунных генов у диких грызунов
- 3,342,720 контигов
- 559,629 скэффолдов
- таблица контигов/скэффолдов
- Scaffold N50: 245,982; Scaffold L50: 3,805; самый короткий: scaffold10081 (200); самый длинный: scaffold3351 (2448660)
- Contig N50: 1,208; Contig L50: 460,539; самый короткий: C74992611 (200); самый длинный: C79938049 (10878)
- последовательность одного из контигов
Рисунок 1. Таблица c NCBI.
2. Описание десяти ключей, используемых в таблицах особенностей:
Таблица 1. Описание ключей.
Ключ | Описание | Пример |
CDS | Кодирующая последовательность и ее трансляция | join(17898..18763,19532..20120) /gene="ccmFC" /locus_tag="SJ96_p32" /codon_start=1 /product="cytochrome c biogenesis factor C" /protein_id="YP_009115184.1" /db_xref="GI:746948582" /db_xref="GeneID:22833950" /translation="MVQLQNFFFFLMFMVVLCGTAAPILFQWLVSRDVPTGAPFSHGT IIPIFTSLLLLLVHVHSRGFIRSMEKTERIVLVKAKRILLLNIIEKSSPKTRAKNAFF FFFFFFSNFFIFKFMGDLSYLESFCSVLCFLLFCTFFLSFKYRRDTWANEERRLGMEE KRKPRKRAQRRKRQALCWPDRKKKQRNKKKQNFSFLFLSNKSKIFLIYLLQFSKTFGF NEKTKILAFYSLLAFLQAYSFVLENIWNKFFIVRALPKRLMDVGHDFRKVPMTMKISH GGVCIFIMGVILSNTKKRQFTQLLPLGSELHIGREHCCLRAIDQLHGPTFHSICGNLI IYKPSLKNPFIFDYDESLRAIIDLLPLAALSYQNEKVEKKYIYFFSTFFHGDRSWRNR EHHSFPLWLTVFPEKRFSFSNRETSTTKVAIHSNLFTDLYALIGTGSFETGWYITIMK LPFIFCIWIGFILASLGGLCSFLRQLALYRLDWN" |
intron | Последовательность интрона | 18764..19531 /gene="ccmFC" /locus_tag="SJ96_p32" /note="group II intron" |
V_region | Вариабельный участок белка (как правило, имеются в виду иммуноглобулины) | 1..277 /gene="VFM1" /product="immunoglobulin heavy chain variable region" |
source | Источник последовательности | 1..2245 /organism="Escherichia coli" /plasmid="Plasmid XYZ" /strain="K12" /mol_type="genomic DNA" |
sig_peptide | Последовательность, кодирующая сигнальный пептид | 1..54 /gene="TCR1A" |
repeat_region | Участок с повторяющимися элементами | 80..401 /rpt_type=DISPERSED /rpt_family="Alu-J" |
regulatory | Любая часть последовательности, которая участвует в регуляции транскрипции или трансляции | <1..9 /gene="ubc42" /regulatory_class="promoter" |
gene | Участок, представляющий биологический интерес и имеющий свое имя | 212..8668 /gene="NF1" |
rep_origin | Ориджин репликации - последовательность, с которого начинается репликация | 6 /direction=LEFT /note="ori" |
mat_peptide | Последовательность зрелого пептида, прошедшего посттрансляционные модификации | 55..399 /gene="TCR1A" /product="T-cell receptor alpha chain" |
3. Описание состояния дел в одном из массовых геномных проектов:
Таблица 2. Описание проекта.
Название проекта | THE 100,000 GENOMES PROJECT |
Цель | Секвенировать 100,000 геномов человека для последующего использования в медицине и науке |
Год начала | 2012 |
Ссылка на страницу | https://www.genomicsengland.co.uk/the-100000-genomes-project/ |
Организация | Genomics England |
Страна | Англия |
Планируемое число геномов | 100,000 |
Год завершения | 2017 |
Сколько геномов секвенировано на 2016 год | 13,971 |
Последняя публикация по проекту | PubMed |