Нуклеотидные банки данных

Характеристика качества сборки генома Heterocephalus glaber

Голый землекоп (Heterocephalus glaber) — небольшой роющий грызун семейства землекоповых. Вид отличается уникальными для млекопитающих особенностями: сложной социальной организацией колонии, холоднокровностью, нечувствительностью к некоторым формам боли (термическим ожогам и химическим ожогам кислотами), выносливостью к высоким концентрациям CO2. Изначально считалось, что особи обладают иммунитетом к раку в целом, но в феврале 2016 года американские учёные сообщили о двух зарегистрированных у голых землекопов случаях рака (несмотря на эти случаи, уровень заболеваемости раком крайне низок по сравнению с другими млекопитающими) Является одним из самых долгоживущих грызунов (до 28 и даже 31 года). [1]

Рис. 1. Heterocephalus glaber[2]

Для данного организма на сайте NCBI представлено 2 сборки генома: GCA_000247695.1 и GCA_000230445.1. Данные сборки были составлены в двух независимых проектах :PRJNA72441(Broad Institute) и PRJNA68323 (Beijing Genomics Institute, Ewha Women's University, Brigham and Woman's Hospital, Broad Institute, Harvard Medical School, University of Illinois at Chicago, University of Copenhagen), соответственно. Всего проектов по секвенированию генома Heterocephalus glaber (BioProjects) - 9. Образцы, использованные в этих проектах - SAMN00714537 и SAMN00217190, соответственно. Дальнейшая характеристика представлена для сборки GCA_000247695.1. Она была получена 17.02.2012 в проекте PRJNA72441. Этот проект посвящен секвенированию образца SAMN00714537 самки голого землекопа с помощью технологии Illumina HiSeq. Авторы отмечают, что самка была рождена в лабортаторных условиях. В таблице 1 представлена информация о данного сборке.

Total sequence length , bp2,618,204,639
Total assembly gap length, bp303,433,536
Gaps between scaffolds0
Number of scaffolds4,229
Scaffold N5020,532,749
Scaffold L5042
Number of contigs114,653
Contig N50, bp47,778
Contig L50, bp13,150
Total number of chromosomes and plasmids1
Самый короткий контиг , bp203(contig110968)
Самый длинный контиг, bp 642149(contig036056)
Таблица 1. Информация о сборке GCA_000247695.1

Таблица контигов: AHKG01_contigs.tsv

Последовательность одного из контигов (contig000001): ссылка


Описание ключей, используемых в таблицах особенностей

1. CDS - последовательность, кодирующая белок. Пример: M17185.1

   CDS             <2..>300
                     /note="C-region"
                     /codon_start=3
                     /protein_id="AAA49323.1"
                     /translation="TPSPPTLYGLFSSCEQPNTDSSVAYGCLAMDYTPEITTVSWKKD
                     KEPITTGLKNYSSVLNKKGTYTLSSQLTITESEVGSSKIYCEVRRGESVWIKEIP"
 

2. polyA_site - участок РНК, к которому в ходе процессинга будут присоедины остатки аденина(полиаденилирование). Пример: NM_001812.2

 polyA_site      3143
                     /gene="CENPC"
                     /gene_synonym="CENP-C; CENPC1; hcp-4; MIF2"
                     /experiment="experimental evidence, no additional details
                     recorded"
 

3. regulatory - участок последовательности, который принимает участие в регуляции транскрипции/трансляции (энхансеры, промоторы , терминаторы и т.д.) Пример: NM_001812.2

      regulatory      3322..3327
                     /regulatory_class="polyA_signal_sequence"
                     /gene="CENPC"
                     /gene_synonym="CENP-C; CENPC1; hcp-4; MIF2
 

4. rep_origin - ориджин репликации. Пример: EU499643.1

  rep_origin      1..442
                     /note="oriV; conserved part of vegetative replication
                     origin including interons"
 

5. D-loop - регион митохондриальной ДНК, где цепи ДНК расплетены из-за комплементарного взаимодействия РНК с одной из цепей. Пример: KU951280.1

   D-loop          15657..16735
                     /note="control region"
 

6. mobile_element - мобильный генетический элемент. Пример:FJ460582.1

mobile_element  4509..6476
                     /rpt_type=dispersed
                     /mobile_element_type="retrotransposon:intracisternal A
                     particle"

7. old_sequence - предыдущая версия этого участка была исправлена. Пример: AH003510.2

 old_sequence    1041
                     /gene="MLC-f"
                     /citation=[1]

8. stem_loop - двуцепочечный элемент одноцепочечной ДНК или РНК, образующийся при комплементарном соединении фрагментов одной и той же цепи(шпилька). Пример: AH003510.2

stem_loop       1956..2080
                     /gene="MLC-f"
                     /citation=[1]

9. variation - вариабельный участок (мутации, полиморфизм). Пример: AH002556.2

  variation       973
                     /note="a in LL3; c in wild-type"

10. 3'UTR - либо участок 3'-конца транскрипта( после стоп-кодона), который не транслируется; либо участок 3'-конца РНК-вируса (после последнего стоп-кодона), которая не транслируется. Пример: KT258721.1

 3'UTR           <1..>171
                     /gene="TNFSF10"


Описание геномного проекта The Autism Genome Project

The Autism Genome Project (AGP) — самый масштабный мировой проект, посвященный изучению генов, связанных с риском возникновения аутизма. Проект был запущен в 2014 году, и на данный момент в него вовлечено примерно 50 исследовательских институтов. Задача проекта — отсеквенировать геномы 10000 семей, в которых есть больной аутизмом. AGP тесно связан с Autism Genetic Resource Exchange (AGRE). Это банк данных и биоматериалов от примерно 2000 семей, в большей части из которых 2 и более ребенка, больных аутизмом. [3]

Этап 1. На данный момент завершен — отсеквенировано 200 геномов из базы AGRE и семей из Китая. Каждая из анализируемых в этом этапе семей состоит из 3-х человек: больного аутизмом ребенка и обоих родителей. Предварительный анализ результатов показал, что данные очень полезны. На основе этих данных в данный момент готовятся статьи.

Этап 2. Секвенирование 2,800 геномов из базы AGRE и семей из Китая. На данный момент — в процессе.

Этап 3. Секвенирование 7,000 геномов до достижения общего числа - 10,000.


Описание митохондриальных генов

По запросу "((Jakobida[Organism]) AND "gene in mitochondrion"[Properties]) AND complete genome[Title]" в БД Nucleotide (NCBI) нашлось 15 геномов представителей таксона Jakobida. Последовательностьей из GenBank - 9, из RefSeq - 6.

Я выбрала вид Jakoba libera (NC_021127.1). Jakoba libera - свободноплавающая, имеет 2 жгутика. Обирает в соленых водоемах. Примечательно то, что митохондриальный геном этого вида включает меньше генов, чем у других пресдавителей таксона Jakobida. Например, у Jakoba libera в митохондриальном геноме закодировано только 2 субъеденицы РНК-полимеразы, в то время как у остальных видов - 4. [4]

Рис. 2. Jakoba libera

Митохондриальный геном Jakoba libera состоит из 100,252 пар нуклеотидов. Таблица митохондриальных генов представлена в формате .xlsx: ссылка .


Размеры геномов разных групп организмов

Минимальный, bpТипичный, bpМаксимальный, bp
Вироид120 (Avocado sunblotch viroid)300456 (Columnea latent viroid)
Бактерии, археи 72,073(Acinetobacter baumannii strain KAB07)4,000,00014,782,125 ( Sorangium cellulosum)
Вирусы, бактериофаги308(Discula destructiva virus)100,0002,473,870(Pandoravirus salinus)
Эукариоты2,216,900 (Encephalitozoon intestinalis)2,000,000,00027,602,700,000(Pinus lambertiana)
Таблица 2. Размеры геномов разных групп организмов




Ссылки

1.Wikipedia: Голый землекоп

2. Flickr: Naked Mole Rat

3. Autismspeaks (genome project)

4.Jakoba libera


© Васильева Елена, 2015