1. Характеристика качества сборки генома эукариотического организма.

В качестве организма была выбранна Jewel Wasp или Nasonia vitripennis, она же Изумрудная тараканья Оса. Тараканьи осы используют живых тараканов в качестве источника пищи для своих личинок. Для этого осы вводят в мозг (надглоточный и подглоточный ганглии) жертвы особую смесь нейротоксинов, изменяющих их поведение и метаболизм.

Больше об этом удивительном чудовище Вы сможете узнать из недавно опубликованной статьи “How a Wasp Turns Cockroaches into Zombies” ссылка https://www.scientificamerican.com/article/how-a-wasp-turns-cockroaches-into-zombies/ в Scientific American.

Рис. 1 Изумрудная тараканья Оса.

Рис.2 Информация о количестве сборок генома, проектов по секвенированию и числе образцов.

Рис.3 Описание образца.

Описание проекта PRJNA13660

Таблица всех контигов.

2. Описание 10 ключей, используемых в таблицах особенностей.

Описание ключей
Ключ
Объяснение
Пример
CDS
Кодирующая последовательность; Нуклеотидная последовательность, коррелирующая с аминокислотной последовательностью белка (включая участки со стоп-кодонами).
СDS    109...717
       /transl_table=11                     
       /gene="sod"                     
       /EC_number="1.15.1.1"                     
       /db_xref="GOA:P28763"                     
       /db_xref="HSSP:P00448"                    
       /db_xref="InterPro:IPR001189"                    
       /db_xref="UniProtKB/Swiss-Prot:P28763"                     
       /product="superoxide dismutase"                     
       /protein_id="CAA45406.1"                    
       /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVSG                     
       HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA                    
       IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL                    
       DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
 
V_region
Вариабельный регион легких и тяжелых цепей иммуноглобулина, рецепторов Т-клеток α-,β-,γ- цепей; коды для N-концевого вариабельного участка; может состоять из V-, D-, N-, J- сегментов.
       V_region     1..277                 
                    /gene="VFM1"                 
                    /product="immunoglobulin heavy chain variable region" 
 
3'UTR

1) Участок на 3'-конце зрелого транскрипта (следующего за стоп-кодоном), который не транслируется в белок; 2) участок на 3'-конце РНК вируса (следующий за последним стоп-кодоном), которые не транслируется в белок.

       3'UTR        complement(16555..17256)                  
                    /locus_tag="Esi_0005_0003"
 
STS
ДНК-маркирующий сайт (уникальная для данного локуса олигонуклеотидная последовательность, которая может быть использована для его идентификации методом ПЦР); участок генома, который можно картировать, определяя порядок последовательностей STS.
         STS        679..1734                  
                    /gene="Itih4"                  
                    /gene_synonym="ITI-HC4; Itih-4; PK-120"                  
                    /standard_name="Itih4"                  
                    /db_xref="UniSTS:265229"
rep_origin
Ориджин репликации.
         rep_origin        6                  
                           /direction=LEFT                  
                           /note="ori"
misc_RNA 
Любой транскрипт или РНК продукт, который нельзя определить через другие РНК «ключи» (первичный транскрипт; РНК-предшественник; м-РНК; 5'UTR; 3'UTR; экзон; CDS; одиночный пептид; транзитный пептид; зрелый полипептид; интрон; участок для полиаденилирования (Поли-А сайт); некодирующие РНК; рРНК, тРНК)
          misc_RNA        1..3726                 
                          /gene="LOC100118133"                  
                          /product="trehalase, transcript variant X2"   
mat_peptide
Зрелый пептид или белок-кодирующая последовательность; кодирующая последовательность зрелых пептидов или белковых продуктов с последующими посттрансляционными модификациями; участок не включает стоп-кодоны.
           mat_peptide      55..399                 
                            /gene="TCR1A"                  
                            /product="T-cell receptor alpha chain"
ncRNA
Белок-некодирующая последовательность, отличная от рРНК и тРНК, функциональной молекулой которой является РНК-транскрипт.
           ncRNA             1..986                      
                             /ncRNA_class="lncRNA"                     
                             /gene="LOC103315461"
misc_difference
Характеристика последовательности, отличная от представленной в записи, которую невозможно описать другим ключом (старый секвенс или вариант, содержащий модифицированное основание).
           misc_difference      756                    
                                /note="compared to genom"                     
                                /replace="g"
operon
Участок, содержащий полицистронный транскрипт, включая кластеры генов, кодирующие совместно или последовательно работающие белки и объединенные под одним промотором.
           operon       160..6865                 
                        /operon="gal"

3. Описание состояния массового геномного проекта.

Название проекта: The Tohoku Medical Megabank Project
Цель проекта: Данный проект делает вклад в восстановление регионального здравоохранения, проводя долгосрочные обследования и наблюдения за здоровьем людей, на территориях пострадавших от Великого восточно-японского землетрясения, произошедшего 11 марта 2011. Проект предоставляет научно-исследовательскую базу для разработки персональной геномики, путем создания биобанка, включающего
материалы и информацию от 150 000 лиц.

Год начала: 1 Февраля 2012 года
Ссылка на страницу проекта: http://www.megabank.tohoku.ac.jp/english/

Страна: Япония
Планируемое число геномов: 150 000
Год завершения: примерно до 2021 Опубликованная информация в базе на 2016 год (integrative Japanese Genome Variation Database
(iJGVD; http://ijgvd.megabank.tohoku.ac.jp/) : 2 049

Последняя публикация проекта: https://www.ncbi.nlm.nih.gov/pubmed/27374138

4. Таблица митохондриальных генов Amoebozoa.

Составим запрос : поиск по полям в БД Nucleotide (NCBI)

Количество в БД RefSeq — 13
Количество в БД GenBank —
23

Таблица митохондриальных генов для организма Dictyostelium citrinum
.