Организм - Tursiops truncatus (bottlenosed dolphin)
BioSample: SAMN00000070; Sample name: Tursiops truncatus; SRA: SRS000266
Description:Tursiops truncatus genomic sample (Описание: Образец генома Бутылконосого Дельфина (Афалина))
BioProject: PRJNA20367 (Accession)
Low coverage genome sequencing of the bottlenosed dolphin (bottlenosed dolphin). Tursiops truncatus Genome sequencing. The bottlenosed dolphin is being sequenced at ~2X coverage by the Human Genome Sequencing Center at the Baylor College of Medicine and the Broad Institute using a whole genome shotgun sequencing strategy. As a marine mammal, the genome sequence should provide greater depth to mammalian genome comparisons and a better understanding of mammalian genome evolution.
(Бутылконосый дельфин был секвенирован с покрытием ~ 2Х Центром секвенирования человеческих геномов в Бейлорском медицинском колледже и Институте Брода при использовании стратегии шот-ган секвенирования. Т.к. это морское млекопитающее, в геномное секвенирование должно быть бОльшей глубины, для возможности сравнения геномов млекопитающих и лучшего понимания их эволюции.
Пример последовательности десятого контига, длинной 24,785 нуклеотидов Контиг10
Десять ключей, используемых в таблицах особенностей (Feature Key)
C_region
Константный участок легкой и тяжелой цепей иммуноглобулина, альфа, бета и гамма цепи Т-клеточных рецепторов (TCR), может включать один или более экзонов, в зависимости от коонкретной цепи.
#
complement(join(277376..277837,279083..279226)) /gene="LOC108926671" /standard_name="Ig lambda chain C region-like" /note="Derived by automated computational analysis using gene prediction method: Gnomon. Supporting evidence includes similarity to: 17 Proteins, and 100% coverage of the annotated genomic feature by RNAseq alignments, including 6 samples with support for all annotated introns" /db_xref="GeneID:108926671"
D_segment
D-сегмент (dversity разнообразие) тяжелой цепи иммуноглобулина и и бета цепи TCR.
#
960827..960843 /gene="IGHD1-1" /gene_synonym="IGHD11" /standard_name="IGHD1-1"
J_segment
J-сегмент (joining соединительный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR.
#
1014668..1014721 /gene="IGHJ1P" /gene_synonym="J-psi-1; Jpsi1" /standard_name="IGHJ1P" /pseudo
V_segment
V-сегмент (variable вариабельный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR, кодирующий основную часть вариабельного участка (V_region) и последние ненсколько аминокислот лидерного пептида.
#
join(5328..5373,5458..5764) /gene="IGHV7-81" /gene_synonym="IGHV781" /standard_name="IGHV7-81"
iDNA
Intervening DNA - ДНК, которая удаляется с помощью какого-то из видов рекомбинации.
#
316..391 /note="IES"
N_region
Дополнительные нуклеотиды, вставленные между перестроенными сегментами иммунноглобулина.
#
326..338 /gene="IGH@"
S_region
Switch region (область преключения) тяжелой цепи иммуноглобулина, который включен в перестройку тяжелой цепи ДНК, которая приводит к экспрессии разных классов иммуноглобулинов в одной В-клетке.
#
629..4806 /gene="I alpha" /note="alpha switch region"
V_region
Вариабельный участок легкой и тяжелой цепей иммуноглобулина и альфа, бета, гамма цепей TCR, кодирующий варибельный терминальный участок аминокислотной последовательности, может состоять из V-сегментов, D-сегментов, N-участка, J-сегментов.
#
16..292 /note="human IGKV3-20*01 derived"
repeat_region
Участок генома, содержащий повторяющиеся единицы.
#
387..391 /note="3' duplicated sequence"
regulatory
Любой участок последовательности, участвующий в регуляции транскрипции или трансляции.
#
2093..2098 /regulatory_class="polyA_signal_sequence" /gene="TFAM" /gene_synonym="MTDPS15; MTTF1; MTTFA; TCF6; TCF6L1; TCF6L2; TCF6L3"
Массивные геномные проекты
Electronic Medical Records and Genomics (eMERGE) Network
Проект организован National Institutes of Health (NIH). Анонсирован в сентябрее 2007 и вошел в свою третью фазу в сентябре 2015.
В данном проекте учавствует ассоциация медицинских исследовательских институтов.
Главная цель eMERGE Network это развить перенести и применить подходы к исследованиям, которые бы скомбинировали биорепозитории с системами электронных медицинских записей (EMR systems), для новых геномных открытий и медицинских применений геномных исследований
Фаза 1 (Сентябрь 2007 - Июль 2011)
Влючала 5 исследовательских центров и внутри одного из них административный координирующий центр. Исследования генетическому разнообразию включали тестирование сотен тысяч генетических вариантов - однонуклеотидные полиморфизмы (single nucleotide polymorphisms (SNPs)). Надо было ответить на вопрос: может ли система EMR и биорепозиторий служить как средства для таких сложных полногеномных исследований связи предрасположенности к заболеванию и терапевтического эффекта (genome-wide association studies (GWAS)) и др.
Фаза 2 (Август 2011 - Июль 2015)
Включала 9 исследовательских центорв (включая 2 педиатрических) и координационный центр. Продолжались открытия геномных модификаций, развитие алгоритмов для электронного определния фенотипа и индетификации аллелей, связанных с ним. Включала два пилотных исследования по клинической реализации, в том числе проект по фармакогеномике и др.
Фаза 3 (Сентябрь 2015 - Май 2019)
Включает 9 исследовательских центров, два центра по секвенированию и генотипированию, и координационный центр. Цель: продолжить развите алгоритма электронного фенотипирования крупномасштабного высокопроизводительного геномного исследования; открыть аллели, связянные с комплексными характеристиками (к примеру, более конкретно: секвенировать и определить вклад в фенотип редких аллелей ~100 клинически значимых генов у 25 000 людей) и др.
Исследовательские центры
Ниже в таблице приведены некторые характеристики проекта
Institution |
EMR system |
Biobank size |
Number of Genotyped/Sequenced Samples contributed |
Group Health, University of Washington |
Epic EMR since 2003 |
8,073 participants |
6,259 |
Harvard/Partners HealthCare |
Internally developed EMR since 1997, Epic EMR since 2015 |
25,000 fully consented participants |
4,930 |
Vanderbilt University |
Internally developed EMR (StarChart) since the late 1990s |
More than 210,000 participants |
27,173 |
Cincinnati Children's Hospital Medical Center |
Epic EMR |
59,289 patients |
6,103 |
Geisinger Health System |
Epic EMR since 1996 |
>95,000 consented participants |
61,816 |
Mayo Clinic |
GE Centricity and Cerner |
60,000 participants |
7,881 |
Columbia University |
Allscripts inpatient/outpatient and iNYP customer platform |
26,310 individuals |
3,087 |
Children's Hospital of Philadelphia |
Epic EMR since 2001 |
80,000 participants |
8,633 |
Northwestern University |
Epic outpatient and Cerner inpatient EMRS |
11,667 participants |
6,513 |
Ссылка на последнюю публикациюEicher JD, Chami N, Kacprowski T, Nomura A, Johnson AD, et al. Platelet-Related Variants Identified by Exomechip Meta-analysis in 157,293 Individuals. American journal of human genetics. 2016 Jul 7;99(1):40-55.
Ссылка на проект
Проект на NIH
Полные митохондриальные геномы Haptophyceae
Запрос для GenBank: ""Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI]
5 находок
Запрос для Refseq: "Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI] AND "refseq"[filter]
1 находка
В качестве примера организма была выбрана Emiliania huxleyi, для которой нашелся полный геном в Refseq.
По ссылкам Related information --- Gene была найдена таблица всех митохондриальных генов. Далее она была сохранена (Send to File) с сортировкой по положению в геноме (Sort by Chromosome). В файле Excel второй лист представляет собой таблицу со всеми митохондриальными генами, а первый лист - таблица с генами, кодирующими белки, по требуемым в задании параметрам.
Таблица размеров геномов
Размер | Вироиды | Вирусы | Бактерии | Эукариоты |
Средний | 270-380 | 5,000-8,000 | 2,000,000 | 1,000,000,000 |
Минимальный | 220 (RYMV, rice yellow mottle sobemovirus) | 1,759 (Porcine circovirus type 1) | 112,091 (Nasuia deltocephalinicola (strain NAS-ALF)) | 2,250,000 (Encephalitozoon intestinalis) |
Максимальный | 399 (Chrysanthemum chlorotic mottle viroid) | 2,470,000 (Pandoravirus salinus) | 13,000,000 (Sorangium cellulosum) | 670,000,000,000 (Polychaos dubium ("Amoeba" dubia)) |