Банки нуклеотидных последовательностей

Задание №1

Организм - Tursiops truncatus (bottlenosed dolphin)

1 сборка генома
1 проект по секвенированию генома
1 образец
BioSample: SAMN00000070; Sample name: Tursiops truncatus; SRA: SRS000266

Description:Tursiops truncatus genomic sample (Описание: Образец генома Бутылконосого Дельфина (Афалина))
BioProject: PRJNA20367 (Accession)

Low coverage genome sequencing of the bottlenosed dolphin (bottlenosed dolphin). Tursiops truncatus Genome sequencing. The bottlenosed dolphin is being sequenced at ~2X coverage by the Human Genome Sequencing Center at the Baylor College of Medicine and the Broad Institute using a whole genome shotgun sequencing strategy. As a marine mammal, the genome sequence should provide greater depth to mammalian genome comparisons and a better understanding of mammalian genome evolution.

(Бутылконосый дельфин был секвенирован с покрытием ~ 2Х Центром секвенирования человеческих геномов в Бейлорском медицинском колледже и Институте Брода при использовании стратегии шот-ган секвенирования. Т.к. это морское млекопитающее, в геномное секвенирование должно быть бОльшей глубины, для возможности сравнения геномов млекопитающих и лучшего понимания их эволюции.
Total sequence length 2,551,418,184
Total assembly gap length 219,423,391
Gaps between scaffolds 0
Number of scaffolds 240,558
Scaffold N50 116,287
Scaffold L50 6,389
Number of contigs 554,228
Contig N50 11,821
Contig L50 57,666
Protein count: 22507
GC%: 42.1
Найденная таблица контигов к сожалению, не сохраняется, т.к. ссылка не работает, в связи с чем определить какой из них максимальный, а какой минимальный не удалось.

Пример последовательности десятого контига, длинной 24,785 нуклеотидов Контиг10

Задание №2

Десять ключей, используемых в таблицах особенностей (Feature Key)

C_region

Константный участок легкой и тяжелой цепей иммуноглобулина, альфа, бета и гамма цепи Т-клеточных рецепторов (TCR), может включать один или более экзонов, в зависимости от коонкретной цепи.

		     complement(join(277376..277837,279083..279226))
                     /gene="LOC108926671"
                     /standard_name="Ig lambda chain C region-like"
                     /note="Derived by automated computational analysis using
                     gene prediction method: Gnomon. Supporting evidence
                     includes similarity to: 17 Proteins, and 100% coverage of
                     the annotated genomic feature by RNAseq alignments,
                     including 6 samples with support for all annotated
                     introns"
                     /db_xref="GeneID:108926671"

D_segment

D-сегмент (dversity разнообразие) тяжелой цепи иммуноглобулина и и бета цепи TCR.

		     960827..960843
                     /gene="IGHD1-1"
                     /gene_synonym="IGHD11"
                     /standard_name="IGHD1-1"

J_segment

J-сегмент (joining соединительный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR.

		     1014668..1014721
                     /gene="IGHJ1P"
                     /gene_synonym="J-psi-1; Jpsi1"
                     /standard_name="IGHJ1P"
                     /pseudo

V_segment

V-сегмент (variable вариабельный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR, кодирующий основную часть вариабельного участка (V_region) и последние ненсколько аминокислот лидерного пептида.

		     join(5328..5373,5458..5764)
                     /gene="IGHV7-81"
                     /gene_synonym="IGHV781"
                     /standard_name="IGHV7-81"

iDNA

Intervening DNA - ДНК, которая удаляется с помощью какого-то из видов рекомбинации.

		     316..391
                     /note="IES"

N_region

Дополнительные нуклеотиды, вставленные между перестроенными сегментами иммунноглобулина.

		     326..338
                     /gene="IGH@"

S_region

Switch region (область преключения) тяжелой цепи иммуноглобулина, который включен в перестройку тяжелой цепи ДНК, которая приводит к экспрессии разных классов иммуноглобулинов в одной В-клетке.

		     629..4806
                     /gene="I alpha"
                     /note="alpha switch region"

V_region

Вариабельный участок легкой и тяжелой цепей иммуноглобулина и альфа, бета, гамма цепей TCR, кодирующий варибельный терминальный участок аминокислотной последовательности, может состоять из V-сегментов, D-сегментов, N-участка, J-сегментов.

		     16..292
                     /note="human IGKV3-20*01 derived"

repeat_region

Участок генома, содержащий повторяющиеся единицы.

		     387..391
                     /note="3' duplicated sequence"

regulatory

Любой участок последовательности, участвующий в регуляции транскрипции или трансляции.

		     2093..2098
                     /regulatory_class="polyA_signal_sequence"
                     /gene="TFAM"
                     /gene_synonym="MTDPS15; MTTF1; MTTFA; TCF6; TCF6L1;
                     TCF6L2; TCF6L3"

Задание №3

Массивные геномные проекты

Electronic Medical Records and Genomics (eMERGE) Network

Проект организован National Institutes of Health (NIH). Анонсирован в сентябрее 2007 и вошел в свою третью фазу в сентябре 2015.

В данном проекте учавствует ассоциация медицинских исследовательских институтов.

Главная цель eMERGE Network это развить перенести и применить подходы к исследованиям, которые бы скомбинировали биорепозитории с системами электронных медицинских записей (EMR systems), для новых геномных открытий и медицинских применений геномных исследований

Фаза 1 (Сентябрь 2007 - Июль 2011)

Влючала 5 исследовательских центров и внутри одного из них административный координирующий центр. Исследования генетическому разнообразию включали тестирование сотен тысяч генетических вариантов - однонуклеотидные полиморфизмы (single nucleotide polymorphisms (SNPs)). Надо было ответить на вопрос: может ли система EMR и биорепозиторий служить как средства для таких сложных полногеномных исследований связи предрасположенности к заболеванию и терапевтического эффекта (genome-wide association studies (GWAS)) и др.

Фаза 2 (Август 2011 - Июль 2015)

Включала 9 исследовательских центорв (включая 2 педиатрических) и координационный центр. Продолжались открытия геномных модификаций, развитие алгоритмов для электронного определния фенотипа и индетификации аллелей, связанных с ним. Включала два пилотных исследования по клинической реализации, в том числе проект по фармакогеномике и др.

Фаза 3 (Сентябрь 2015 - Май 2019)

Включает 9 исследовательских центров, два центра по секвенированию и генотипированию, и координационный центр. Цель: продолжить развите алгоритма электронного фенотипирования крупномасштабного высокопроизводительного геномного исследования; открыть аллели, связянные с комплексными характеристиками (к примеру, более конкретно: секвенировать и определить вклад в фенотип редких аллелей ~100 клинически значимых генов у 25 000 людей) и др.

Исследовательские центры

Brigham and Women's Hospital with Massachusetts General Hospital
Cincinnati Children's Hospital Medical Center. Boston Children's Hospital
Children's Hospital of Philadelphia
Columbia University
Geisinger
Group Health Cooperative with the University of Washington
Marshfield Clinic
Mayo Clinic
Mount Sinai School of Medicine
Northwestern University
Vanderbilt University

Ниже в таблице приведены некторые характеристики проекта

Institution	EMR system	Biobank size	Number of Genotyped/Sequenced Samples contributed
Group Health, University of Washington	Epic EMR since 2003	8,073 participants	6,259
Harvard/Partners HealthCare	Internally developed EMR since 1997, Epic EMR since 2015	25,000 fully consented participants	4,930
Vanderbilt University	Internally developed EMR (StarChart) since the late 1990s	More than 210,000 participants	27,173
Cincinnati Children's Hospital Medical Center	Epic EMR	59,289 patients	6,103
Geisinger Health System	Epic EMR since 1996	>95,000 consented participants	61,816
Mayo Clinic	GE Centricity and Cerner	60,000 participants	7,881
Columbia University	Allscripts inpatient/outpatient and iNYP customer platform	26,310 individuals	3,087
Children's Hospital of Philadelphia	Epic EMR since 2001	80,000 participants	8,633
Northwestern University	Epic outpatient and Cerner inpatient EMRS	11,667 participants	6,513

Ссылка на последнюю публикациюEicher JD, Chami N, Kacprowski T, Nomura A, Johnson AD, et al. Platelet-Related Variants Identified by Exomechip Meta-analysis in 157,293 Individuals. American journal of human genetics. 2016 Jul 7;99(1):40-55.

Ссылка на проект

Проект на NIH

Задание №4

Полные митохондриальные геномы Haptophyceae

Запрос для GenBank: ""Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI]

5 находок

Запрос для Refseq: "Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI] AND "refseq"[filter]

1 находка

В качестве примера организма была выбрана Emiliania huxleyi, для которой нашелся полный геном в Refseq.

По ссылкам Related information --- Gene была найдена таблица всех митохондриальных генов. Далее она была сохранена (Send to File) с сортировкой по положению в геноме (Sort by Chromosome). В файле Excel второй лист представляет собой таблицу со всеми митохондриальными генами, а первый лист - таблица с генами, кодирующими белки, по требуемым в задании параметрам.

Задание №5

Таблица размеров геномов

Размер	Вироиды	Вирусы	Бактерии	Эукариоты
Средний	270-380	5,000-8,000	2,000,000	1,000,000,000
Минимальный	220 (RYMV, rice yellow mottle sobemovirus)	1,759 (Porcine circovirus type 1)	112,091 (Nasuia deltocephalinicola (strain NAS-ALF))	2,250,000 (Encephalitozoon intestinalis)
Максимальный	399 (Chrysanthemum chlorotic mottle viroid)	2,470,000 (Pandoravirus salinus)	13,000,000 (Sorangium cellulosum)	670,000,000,000 (Polychaos dubium ("Amoeba" dubia))