Банки нуклеотидных последовательностей


1. Характеристика качества сборки генома эукариотического организма

Описание сборки было сделано на примере генома суматранского орангутана (Pongo abelii). Это один из двух ныне живущих видов орангунатов, который обитает только на острове Суматра в Индонезии. Из-за неблагоприятной экологической обстановки на острове численность популяции орангутанов уменьшается. Рассматривался отсеквенированный образец крови самки.
Технология секвенирования Shotgun sequencing, или метод дробовика. Этот метод используется для секвенирования длинных последовательностей и являтся методом, с помощью которого были получены первые полные геномы. На сегодняшний день метод дробовика все еще используется, но наиболее передовыми и эффективными считаются технологии секвенирования нового поколения (NGS), которые считывают более короткие риды, но с очень большой скоростью.
> Подробнее о Shotgun sequencing
Данные о сборке:
Покрытие 6х.
Число контигов 408552
Число скэффолдов 79342
N50 15648
L50 55289
> Адрес таблицы с контигом
> Адрес последовательности одного контига



Рис.1 Pongo abelii

2. Опиcание ключей, используемых в таблицах особенностей

Ключ Описание Пример
misc_feature Область биологического интереса: участок, который не может быть описан никакими другими ключами.
   misc_feature    67023..67201
                     /note="similar to Mus musculus EST BE290208
                     (NID:g9171084)"
mobile_element Участок, содержащий мобильные элементы (транспозоны)
   mobile_element  15387..16731
                     /mobile_element_type="insertion sequence:IS186A"
repeat_region Участок генома, содержащий повторяющиеся "блоки"
 repeat_region   422372..422404
                     /note="REP36 (repetitive extragenic palindromic) element;
                     contains 1 REP sequences"
rep_origin Ориджин репликации (сайт, с которого начинается репликация ДНК)
 rep_origin      3925744..3925975
                     /note="oriC; origin of chromosomal DNA replication,
                     bidirectional;
                     oriC; b4489; ECK3735; JWS0001"
                     /db_xref="ASAP:ABE-0012233"
source Биологический источник последовательности (в одном gbk-файле должен быть как минимум один источник, обычно в самом начале файла)
 source          1..4641652
                     /organism="Escherichia coli str. K-12 substr. MG1655"
                     /mol_type="genomic DNA"
                     /strain="K-12"
                     /sub_strain="MG1655"
                     /db_xref="taxon:511145"
tmRNA Транспортно-матичная РНК: сначала функционирует как транспортная, а затем как матричная РНК (кодирует белковые метки). Рибосома транслирует матричный участок тмРНК, и присоединяет эту короткую пептидную метку к С-концу синтезируемого белка. Чаще всего эта метка определяет протеолизис.
 tmRNA           2755593..2755955
                     /gene="ssrA"
                     /locus_tag="b2621"
                     /gene_synonym="ECK2617; JWR0055; sipB"
                     /product="tmRNA, 10Sa RNA"
                     /note="acts as tRNA-Ala and mRNA template for tagging
                     proteins resulting from premature transcription
                     termination for degradation, a process known as
                     trans-translation"
ncRNA Некодирующая РНК, обладает регуляторными функциями (к ним не относятся транспортные и рибосомальные РНК)
  ncRNA           2167114..2167200
                     /ncRNA_class="antisense_RNA"
                     /gene="cyaR"
                     /locus_tag="b4438"
                     /gene_synonym="ECK2078; JWR0243; ryeE"
                     /product="sRNA antisense regulator of ompX mRNA
                     instability, Hfq-dependent, cAMP-induced"
                     /note="identified in a large scale screen"
                     /db_xref="ASAP:ABE-0047258"
                     /db_xref="EcoGene:EG31153"
                     /db_xref="GeneID:2847769"

3. Геномные проекты

NIH Human Microbiome Project (HMP) Roadmap Project - масштабный проект по секвенированию метагеномов микробных сообществ из носовой и ротовой полости, пищеварительного тракта, кожи, и т.д.. Секвенировали 16s рибосомальную РНК. Основные цели проекта: разработать референсный набор бактериальных геномов, изучить корреляции между возникновением разного рода заболеваний и изменениями в микробиоме, разработать новые методы обработки подобных данных.
Проект организован National Institutes of Health (NIH), США. Он был запланирован на пять лет (2008-2013 гг), однако согласно NCBI, был зарегистрирован только в 2010 г. Текущее состояние проекта: завершён. Насколько я понимаю, было несколько попыток его продолжить.
Масштаб проекта хорошо характеризуется следующими данными: "more than 5,000 samples were collected from tissues from 15 (men) to 18 (women) body sites such as mouth, nose, skin, lower intestine (stool) and vagina". Согласно NCBI, на сегодняшний день проект включает 676288 последовательностей ДНК.
>Подробнее о проекте:
1. Страница в NCBI
2. Страница в Wikipedia (en)

4. Митохондриальные геномы

Систематическая группа, к которой производился поиск: Jakobida. Этот выбор неслучаен, так как митохондриальный геном жгутиконосца-якобиды, а именно Reclinomonas americana, считается наиболее полным из всех известных митогеномов.
Запрос к Refseq:
"Jakobida"[Organism] AND "mitochondrion"[Title] AND "complete genome"[Title] AND "srcdb refseq"[Properties]

Такой запрос выдал 6 находок, я выбрала из них запись с AC "NC_001823", которая соответствует митохондриальному геному Reclinomonas americana. Всего в ситогеноме 69034 п.н., закодировано 67 белков и 30 (различных) РНК.

Рис.2 Жгутиконосцы якобиды


6*. Размеры геномов
Назад