Качество сборки генома эукариотического организма

Я решил описать данио рерио (Danio rerio или zebrafish). Выбор основывается на том, что моя курсовая работа связана с этим модельным организмом.

Классификация:

Danio rerio является модельным организмом для изучения развития позвоночных животных, биологии развития, а также некоторых генетических заболеваний человека.

Эта небольшая (4-5 см в длину) тропическая пресноводная рыбка водится в реках северной Индии, северной части Пакистана, Непала и Бутана в Южной Азии.

Danio rerio — это первые рыбы (и пока одни из немногих), которые побывали на орбитальной космической станции.

Этот вид имеет ряд преимуществ в качестве инструмента исследования, включая короткое время жизни, производство крупных кладок яиц, внешнее оплодотворение, быстрый эмбриогенез, который похож на эмбриогенез высших позвоночных, который можно контролировать через прозрачное яйцо.

Несмотря на довольно низкое сходство между человеком и рыбами, многие системы этих организмов, в частности, сердечно-сосудистая система, взаимодействуют с низкомолекулярными соединениями аналогичным образом. Достоверные результаты могут быть получены при исследовании фармакокинетики и токсичности препаратов. Методами генной инженерии могут быть разработаны линии Danio rerio, специфично имитирующие различные заболевания человека.

Геном организма содержит 25 хромосом. Интересно, что для данио до сих пор не известен механизм определения пола, хотя предполагается, что он связан с условиями окружающей среды во время развития эмбриона.

Существует 4 сборки генома этой рыбки, поэтому я опишу самую полную GRCz10.

Один из 5 проектов для этой сборки

Для выполнения секвенирования использовался образец SAMN03020626, взятый у 7 разных особей.

Для сборки GRCz10:

Kлючи, используемые в таблицах особенностей

Нуклеотидные банки GenBank, EMBL и DDBJ используют таблицы сайтов и особенностей для описания роли и расположения наиболее высокоорганизованных доменов последовательностей и элементов генома организмов.

Цель таблиц Feature Table - предоставить запас обозначений для описания общих для этих баз данных правила, позволяющие безпрепятсвенно обмениваться данными на регулярной основе.

Описываются участки, которые:

Я приведу 10 примеров ключей с пояснениями

source          1..7000
                     /organism="Saccharomyces cerevisiae"
                     /strain="S288C"
                     /chromosome="XVI"

Sourse - yказывает на биологический источник для обозначенного участка последовательности, является обязательным, таких ключей может быть много.

     CDS             join(228..350,883..910,1027..1170,1287..1460,1576..1653,1770..1798)
                     /gene="MLC1-f"
                     /note="fast myosin light chain 1"
                     /codon_start=1
                     /product="myosin light chain"
                     /protein_id="AAA98533.1"
                     /translation="MAPKKDVKKPAAAAPAPAPAPAPAPAPAKPKEEKIDLSAIKIEF
                     SKEQQEEFKEAFLLFDRTGECKITLSQVGDVLRALGTNPTNAEVKKVLGNPSNEEMNA
                     KKIEFEQFLPMMQAISNNKDQGGYEDFVEGLRVFDKEGNGTVMGAELRHVLATLGEKM
                     KEEEVEALLAGQEDSNGCINYEAFVKHIMSV"

CDS - кодирующая последовательность, начинающаяся и заканчивающаяся на указанных нуклеотидах (связана с ними), кодируемая геном MLC1-f, имеет продукт "легкая цепь миозина".

intron          351..>356
                     /gene="MLC1-f"
                     /number=1

Интрон - сегмент ДНК, который вырежется при сплайсинге и не появится в зрелой мРНК, начинается с 351 нуклеотида и заканчивается на 356 нуклеотиде.

exon            complement(4535..4570)
                     /number=1

exon - экзон(участки ДНК, копии которых составляют зрелую РНК), начинается с 4535 и заканчивается на 4570.

tRNA            complement(join(4535..4570,4590..4626))
                     /product="tRNA-Phe"
                     /gene="trnF"

tRNA - кодирует транспортную тРНК, переносящую фенилаланин.

rep_origin           6      
                     /direction=LEFT
                     /note="ori"

Rep_origin - указывает на ориджин репликации (ori-сайт или точку начала репликации). В спецификаторе может указываться направление репликаци от точки ее начала (RIGHT, LEFT, or BOTH).

gene            548..1798
                     /gene="MLC3-f"

Gene - область, идентифицированная как ген, имеет свое название и связана с определенным фенотипом.

operon          160..6865                                                                            
                     /operon="gal"

Оperon - функциональная единица генома у прокариот, в состав которой входят цистроны (гены, единицы транскрипции), кодирующие совместно или последовательно работающие белки и объединенные под одним (или несколькими) промоторами.

repeat_region   80..401
                     /rpt_tipe=DISPERSEQ                                                        
                     /rpt_family="Alu-J"

Repeat_region - oбласть генома, содержащая повторяющиеся элементы.

regulatory      95..100
                     /gene="sod"
                     /regulatory_class="ribosome_binding_site"

Regulatory - любой участок генома, функция которого заключается в регуляции транскрипции или трансляции.

Можно заметить, что записи включают следующие пункты:

Состояние дел в одном из массовых геномных проектов

Я опишу проект под названием 1000 геномов грибов или 1KFG сокращенно.

К настоящему моменту нам известно около 1.5 миллиона различных грибов. Они представляют огромную часть Дерева Жизни и оказывают громадное влияние на биосферу и деятельность человека.

Грибы - это и редуценты органики, и патогены, среди них также много симбионтов различных растений. Мы должны понимать как они функционируют и как они взаимодействуют в естественных и искуственных условиях, если хотим использовать представителей царства грибов.

Цель проекта - за 5 лет секвенировать геномы 1000 грибов с разных ветвей эволюционого дерева этого царства.

Международная исследовательская группа работает над этим проектом в сотрудничестве с Объединенным институтом генома министерства энергетики США.

Работа началась в 2012 году, к настоящему моменту секвенировано и опубликовано

Cсылка на одну из последних публикаций в 2016 году

Cсылка на сайт проекта

Таблица митохондриальных генов

Таксон с которым я работаю - глаукофитовые водоросли (Glaucophyta или Glaucocystophyceae).

Это небольшой древний отдел одноклеточных водорослей, включающий восемь родов и 21 вид. Глаукофиты особенно интересны своими уникальными хлоропластами (цианеллами), довольно примитивно устроенными по сравнению с хлоропластами других водорослей: они содержат слой муреина между мембранами и характеризуются множеством других свойств, присущих цианобактериям. Согласно современным представлениям, глаукофитовые водоросли обособились в отдельную группу у самого основания Archaeplastida.

Глаукофитовые водоросли обитают исключительно в пресных водах, в том числе в болотах. Крупные популяции глаукофитов встречаются редко. Среди них есть и планктонные формы, и прикреплённые колонии. В пробах глаукофиты выделяются от других водорослей со схожей морфологией по наличию пластид яркого сине-зелёного цвета. От синезелёных водорослей их отличает наличие неокрашенной цитоплазмы.

Митохондрии глаукофитов имеют пластинчатые кристы на своей внутренней мембране; в этом они сходны с зелёными и красными, а также с криптофитовыми водорослями. Митохондриальные геномы глаукофитов в целом сходны с таковыми у других Archaeplastida, они не содержат необычных генов и не имеют других особенностей генома. В ходе исследований митохондриальных геномов глаукофитов у некоторых представителей таксона были выявлены отклонения от стандартного генетического кода, причём могут использоваться различные неканонические старт- и стоп-кодоны.

Для поиска информации о митохондрильном геноме этого таксона я составил следующий запрос в NCBI (((glaucophyta[Organism]) AND complete[Title]) AND mitochondrion[Title]) AND genome[All Fields] в БД Nucleotide.

По этому запросу было найдено 8 результатов.

Glaucocystis nostochinearum - представитель этого таксона.

Таблица Exsel содержит информацию о всех белках и белковых субъединицах, закодированных в митохондриальном геноме Glaucocystis nostochinearum. Cортировка списка была проведена в соответствии с положением генов в митохондриальной хромосоме. Всего митохондриальный геном кодирует 36 белковых продукта(не белков нет).

Таблица размеров геномов

Таблица 1. Размеры геномов различных организмов
ОрганизмыМаксимальный размер генома, MbТипичный размер генома, MbМинимальный размер генома, Mb
Вироиды0.0004340.0003370.000246
Вирусы2.472.340.00
Археи6.452.340.1
Бактерии16.388.076.3
Эукариоты27602.7378.950.01

© Борисов Евгений 2015