Вернуться на главную страницу

Семестры

Третий семестр

Банки нуклеотидных последовательностей

Задание №1

Организм - Tursiops truncatus (bottlenosed dolphin)

Пример последовательности десятого контига, длинной 24,785 нуклеотидов Контиг10

Задание №2

Десять ключей, используемых в таблицах особенностей (Feature Key)

    C_region

    Константный участок легкой и тяжелой цепей иммуноглобулина, альфа, бета и гамма цепи Т-клеточных рецепторов (TCR), может включать один или более экзонов, в зависимости от коонкретной цепи.

    #

    		     complement(join(277376..277837,279083..279226))
                         /gene="LOC108926671"
                         /standard_name="Ig lambda chain C region-like"
                         /note="Derived by automated computational analysis using
                         gene prediction method: Gnomon. Supporting evidence
                         includes similarity to: 17 Proteins, and 100% coverage of
                         the annotated genomic feature by RNAseq alignments,
                         including 6 samples with support for all annotated
                         introns"
                         /db_xref="GeneID:108926671"

    D_segment

    D-сегмент (dversity разнообразие) тяжелой цепи иммуноглобулина и и бета цепи TCR.

    #

    		     960827..960843
                         /gene="IGHD1-1"
                         /gene_synonym="IGHD11"
                         /standard_name="IGHD1-1"

    J_segment

    J-сегмент (joining соединительный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR.

    #

    		     1014668..1014721
                         /gene="IGHJ1P"
                         /gene_synonym="J-psi-1; Jpsi1"
                         /standard_name="IGHJ1P"
                         /pseudo

    V_segment

    V-сегмент (variable вариабельный) легкой и тяжелой цепей иммуноглобулинов, альфа, бета, гамма цепей TCR, кодирующий основную часть вариабельного участка (V_region) и последние ненсколько аминокислот лидерного пептида.

    #

    		     join(5328..5373,5458..5764)
                         /gene="IGHV7-81"
                         /gene_synonym="IGHV781"
                         /standard_name="IGHV7-81"

    iDNA

    Intervening DNA - ДНК, которая удаляется с помощью какого-то из видов рекомбинации.

    #

    		     316..391
                         /note="IES"

    N_region

    Дополнительные нуклеотиды, вставленные между перестроенными сегментами иммунноглобулина.

    #

    		     326..338
                         /gene="IGH@"

    S_region

    Switch region (область преключения) тяжелой цепи иммуноглобулина, который включен в перестройку тяжелой цепи ДНК, которая приводит к экспрессии разных классов иммуноглобулинов в одной В-клетке.

    #

    		     629..4806
                         /gene="I alpha"
                         /note="alpha switch region"

    V_region

    Вариабельный участок легкой и тяжелой цепей иммуноглобулина и альфа, бета, гамма цепей TCR, кодирующий варибельный терминальный участок аминокислотной последовательности, может состоять из V-сегментов, D-сегментов, N-участка, J-сегментов.

    #

    		     16..292
                         /note="human IGKV3-20*01 derived"

    repeat_region

    Участок генома, содержащий повторяющиеся единицы.

    #

    		     387..391
                         /note="3' duplicated sequence"

    regulatory

    Любой участок последовательности, участвующий в регуляции транскрипции или трансляции.

    #

    		     2093..2098
                         /regulatory_class="polyA_signal_sequence"
                         /gene="TFAM"
                         /gene_synonym="MTDPS15; MTTF1; MTTFA; TCF6; TCF6L1;
                         TCF6L2; TCF6L3"

Задание №3

Массивные геномные проекты

Electronic Medical Records and Genomics (eMERGE) Network

Проект организован National Institutes of Health (NIH). Анонсирован в сентябрее 2007 и вошел в свою третью фазу в сентябре 2015.

В данном проекте учавствует ассоциация медицинских исследовательских институтов.

Главная цель eMERGE Network это развить перенести и применить подходы к исследованиям, которые бы скомбинировали биорепозитории с системами электронных медицинских записей (EMR systems), для новых геномных открытий и медицинских применений геномных исследований

Фаза 1 (Сентябрь 2007 - Июль 2011)

Влючала 5 исследовательских центров и внутри одного из них административный координирующий центр. Исследования генетическому разнообразию включали тестирование сотен тысяч генетических вариантов - однонуклеотидные полиморфизмы (single nucleotide polymorphisms (SNPs)). Надо было ответить на вопрос: может ли система EMR и биорепозиторий служить как средства для таких сложных полногеномных исследований связи предрасположенности к заболеванию и терапевтического эффекта (genome-wide association studies (GWAS)) и др.

Фаза 2 (Август 2011 - Июль 2015)

Включала 9 исследовательских центорв (включая 2 педиатрических) и координационный центр. Продолжались открытия геномных модификаций, развитие алгоритмов для электронного определния фенотипа и индетификации аллелей, связанных с ним. Включала два пилотных исследования по клинической реализации, в том числе проект по фармакогеномике и др.

Фаза 3 (Сентябрь 2015 - Май 2019)

Включает 9 исследовательских центров, два центра по секвенированию и генотипированию, и координационный центр. Цель: продолжить развите алгоритма электронного фенотипирования крупномасштабного высокопроизводительного геномного исследования; открыть аллели, связянные с комплексными характеристиками (к примеру, более конкретно: секвенировать и определить вклад в фенотип редких аллелей ~100 клинически значимых генов у 25 000 людей) и др.

Исследовательские центры

Ниже в таблице приведены некторые характеристики проекта

Institution

EMR system

Biobank size

Number of Genotyped/Sequenced Samples contributed

Group Health, University of Washington

Epic EMR since 2003

8,073 participants

6,259

Harvard/Partners HealthCare

Internally developed EMR since 1997, Epic EMR since 2015

25,000 fully consented participants

4,930

Vanderbilt University

Internally developed EMR (StarChart) since the late 1990s

More than 210,000 participants

27,173

Cincinnati Children's Hospital Medical Center

Epic EMR

59,289 patients

6,103

Geisinger Health System

Epic EMR since 1996

>95,000 consented participants

61,816

Mayo Clinic

GE Centricity and Cerner

60,000 participants

7,881

Columbia University

Allscripts inpatient/outpatient and iNYP customer platform

26,310 individuals

3,087

Children's Hospital of Philadelphia

Epic EMR since 2001

80,000 participants

8,633

Northwestern University

Epic outpatient and Cerner inpatient EMRS

11,667 participants

6,513

Ссылка на последнюю публикациюEicher JD, Chami N, Kacprowski T, Nomura A, Johnson AD, et al. Platelet-Related Variants Identified by Exomechip Meta-analysis in 157,293 Individuals. American journal of human genetics. 2016 Jul 7;99(1):40-55.

Ссылка на проект

Проект на NIH

Задание №4

Полные митохондриальные геномы Haptophyceae

Запрос для GenBank: ""Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI]

5 находок

Запрос для Refseq: "Haptophyceae"[ORGN] AND "complete"[TI] AND "gene_in_mitochondrion"[PROP] NOT "cds"[TI] AND "refseq"[filter]

1 находка

В качестве примера организма была выбрана Emiliania huxleyi, для которой нашелся полный геном в Refseq.

По ссылкам Related information --- Gene была найдена таблица всех митохондриальных генов. Далее она была сохранена (Send to File) с сортировкой по положению в геноме (Sort by Chromosome). В файле Excel второй лист представляет собой таблицу со всеми митохондриальными генами, а первый лист - таблица с генами, кодирующими белки, по требуемым в задании параметрам.

Задание №5

Таблица размеров геномов

РазмерВироидыВирусыБактерииЭукариоты
Средний270-3805,000-8,0002,000,0001,000,000,000
Минимальный220 (RYMV, rice yellow mottle sobemovirus)1,759 (Porcine circovirus type 1)112,091 (Nasuia deltocephalinicola (strain NAS-ALF))2,250,000 (Encephalitozoon intestinalis)
Максимальный399 (Chrysanthemum chlorotic mottle viroid)2,470,000 (Pandoravirus salinus)13,000,000 (Sorangium cellulosum)670,000,000,000 (Polychaos dubium ("Amoeba" dubia))

© Матвейшина Елена, 2015