Банки нуклеотидных последовательностей


1. Характеристика качества сборки генома эукариотического организма
Для анализа был выбран геном инфузории туфельки (Paramecium caudatum), потому что они пушистые и милые (рис. 1).
Ссылка на геном в NCBI


Рис. 1 Paramecium caudatum в исполнении меня

Таблица №1
Общая информация
Число сборок 1
Число проектов по секвенированию 1
Число образцов 1

Таблица №2
Информация о сборке
Описание образца (BioSample) образец: SAMN02768576
название образца: P caudatum 43c3d (Paramecium caudatum, штамм 43c3d)
Описание проекта (BioProject) проект: PRJNA246569
тип данных: секвенирование и сборка генома
охват: отдельный организм [Taxonomy ID: 5885]
организм: Paramecium caudatum Eukaryota; Alveolata; Ciliophora; Intramacronucleata; Oligohymenophorea; Peniculida; Parameciidae; Paramecium; Paramecium caudatum
публикации: McGrath CL et al., "Insights into three whole-genome duplications gleaned from the Paramecium caudatum genome sequence.", Genetics, 2014 May 19;197(4):1417-28
гранты: "The Evolutionary Consequences of Whole-genome Duplication: the Paramecium Aurelia Complex" (Grant ID EF-0328516-A006, National Science Foundation)
актуальность: эволюция

Всего в сборке 2172 контига и 777 скэффолдов. N50 для контигов равен 50166, L50 - 173. Самый короткий контиг имеет длину 200 нуклеотидов, самый длинный - 793585.
Ссылка на список контигов
Пример контига

2. Описание ключей, используемых в таблицах особенностей
Ключи и аннатации к ним взяты с сайта INSDC.
Примеры - с сайта NCBI.

Таблица №4
Ключи в таблице особенностей
Ключ Описание Пример
rep_origin ориджин репликации; начальный сайт дупликации ДНК с целью получения дввух идентичных копий /organism="Bison bison"
rep_origin 5518..5548
STS целевой меченый сайт; короткая последовательность ДНК в единственном экземпляре,
которая явлется меткой при картировании генома и может быть обнаружена при ПЦР;
участок генома может быть картирован путем определения порядка в серии STS
/organism="Aeromonas hydrophila subsp. hydrophila ATCC 7966"
STS 1973689..1973846
D-loop смещенная петля; участок митохондриальной ДНК, к одной из цепей которого присоединена РНК,
смещая исходную комплиментарную цепь на данном участке
/organism="Bison bison"
D-loop join(15792..16319,1..360)
exon регион генома, который кодирует участок сплайсируемой мРНК, рРНК и тРНК,
может содержать 5'UTR, все CDSs и 3'UTR
/organism="Felis catus"
exon 2114723..2115106
repeat_region участки генома, содержащие повторяющиеся элементы /organism="'Deinococcus soli' Cha et al. 2014"
repeat_region 3827..3937
ncRNA Не белок кодирующий ген, отличающися от рРНК и тРНК, функциональными молекулами которых являются РНК транскрипты /organism="'Deinococcus soli' Cha et al. 2014"
ncRNA 2890993..2891428
misc_RNA транскрипт или РНК-продукт, который не может быть определен при помощи других ключей /organism="Cyanidioschyzon merolae strain 10D"
misc_RNA complement(37715..40252)
assembly_gap гэп между двумя компонентами сборки генома или транскриптома /organism="Rattus norvegicus" assembly_gap 2941..2990
V_segment не постоянный сегмент тяжелой и легкой цепей иммуноглобулина и цепей (α, β,γ) Т-клеточных рецепторов /organism="Rattus norvegicus"
V_segment join(29073593..29073803,29073992..29074257)
tRNA зрелая транспортная РНК; маленькая молекула РНК (75-85 оснований длиной),
которая служит посредником в трансляции последовательности нуклеиновых кислот в последовательность аминокислок
/organism="Acinonyx jubatus"
tRNA complement(14989..15057)

3. Описание состояния дел в одном из массовых геномных проектов
Первый секвенированный геном растения принадлежал Резушке Таля (Arabidopsis thaliana). Он был представлен в 2000-м году и стал важной вехой в изучении биологии. Вообше резушки или резуховидка Таля - растение из семейства капустные, названо в честь Иоганна Таля.


Рис. 2
Arabidopsis thaliana

Резушка Таля внезапно вышла на передний план в изучении адаптивной эволюции, став своего рода дрозофилой для ботаников. Преимущества заключаются в коротком жизненном цикле (может пройти полный цикл развития за шесть недель), одном из наименьших геномов среди цветковых растений, диплоидности, широком распространении и разнообразии генотипов и фенотипов.
Размножение путем инцухта (инбридинга), благодаря самоопылению, позволяет изучать взаимодействия неограниченного числа генотипически эдентичных организмов с различными условиями окружающей среды. Задача, очевидно, важная не только для эволюционных биологов или селекционеров, но также для биологии человека, где подобные эксперименты невозможны.
В начале 2008 года под руководством Detlef Weigel (некорректно переведу, обидится еще) на базе Института Исследовательской Биологии Макса Планка в Германии был запущен Геномный Проект для получения детальных последовательностей всего генома по крайней мере 1001-й линии A. thaliana. Совсем недавно проект завершился и на данный момент располагает 1135 полными геномами. По этому поводу 9 июня 2016-го года была опубликована статья.

4. Таблицу митохондриальных генов одного из организмов указаного таксона
Мне достался единственный класс Glaucocystophyceae отдела глаукофитовых водорослей. Чрезвычайно древняя группа, обособившаяся еще до расхождения красных и зеленых водорослей. Особый интерес представляет устройство цианелл - пластид, полученных путем эндосимбиоза и не утратившие черты сходства с цианобактериями.
Я выбрала известный модельный организм Cyanophora paradoxa (рис. 3, 4).


Рис. 3
Картинка Cyanophora paradoxa
Рис. 4 Микрофотография Cyanophora paradoxa

Чтобы найти полные митохондриальные геномы этой водоросли на сайте NCBI, я использовала запрос:
gene_in_mitochondrion[PROP] AND complete[TI] AND "Cyanophora paradoxa"
Находок оказалось две, обе в GenBank. Если искать по RefSeq
gene_in_mitochondrion[PROP] AND complete[TI] AND refseq[FILTER] AND "Cyanophora paradoxa"
- одна находка.
Таблица генов