Банки нуклеотидных последовательностей

Качество сборки генома эукариотического организма

В качестве эукариотического организма была выбрана криптофитовая водоросль Guillardia theta. Имеется одна сборка генома этого организма (Guith1). Однако проектов по секвенированию целых пять. Дело в том, что в клетках криптофитовых водорослей имеется два ядра: одно ядро принадлежит собственно криптофитовой водорослью, а второе ядро лежит между второй и третьей мембранами хлоропласта (всего их 4) и называется нуклеоморфа. Нуклеоморфа - это редуцированное ядро водоросли, содержащей хлоропласт и проглоченной предком криптофитовой водоросли. Секвенированию генома нуклеоморфа посвящено два проекта, а геному собственно криптофитовой водоросли - три других проекта. Во всех пяти проектах использовались моноизоляты (то есть один образец).

Рассмотрим сборку Guith1. В ней имеется 669 скэффолдов и 5126 контигов, самый длинный контиг (N50) имеет длину 40445 bp, самый маленький (L50) - 587. Исследуемый образец имеет идентификатор SAMN00116900 (таксономический идентификатор 905079) и представляет собой штамм CCMP2712 криптомонады ''Guillardia theta'' (больше в поле Description на странице образца ничего не указано). Работа была выполнена в рамках проекта (BioProject) PRJNA53577, зарегистрирован 2 ноября 2012. По итогам работы была выпущена публикация Curtis BA et al., "Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs.", Nature, 2012 Nov 28;492(7427):59-65.

Скачать таблицу контигов. Чтобы посмотреть скэффолды, нужно задать в NCBI поиск по нуклеотидам и ввести запрос JH992965:JH993633[PACC] или JH992965:JH993633[accn]. Скачать последовательность контига 11 в FASTA-формате

Guillardia theta, штамм CCMP2712

Десять ключей, используемых в таблицах особенностей

В таблице ниже приведён результат выполнения задания. Информация взята отсюда.

КлючОписаниеПример
1CDSНачало и конец кодирующей последовательности, соответствующей данному продукту данного гена23..400
/product="alcohol dehydrogenase"
/gene="adhI"
2rep_originОриджин репликации; сайт старта дупликации нуклеиновой кислоты с целью получения двух идентичных копий6
/direction=LEFT
/note="ori"
3sourceБиологический источник (например, биологический вид) рассматриваемой последовательности1..1000
/culture_collection="ATCC:11775"
/culture_collection="CECT:515"
4V-regionВариабельный участок легкой и тяжелой цепей иммуноглобулинов, а также альфа, бета, гамма цепей рецепторов Т-клеток; может быть составлен из V-, D-, J-сегментов и N-участков1..277
/gene="VFM1"
/product="immunoglobulin heavy chain variable region"
5tRNAЗрелая тРНК655..730
/gene="tRNA-Leu(UUR)"
/anticodon=(pos:678..680,aa:Leu,seq:taa)
/product="transfer RNA-Leu(UUR)"
6sig_peptideПоследовательность, кодирующая сигнальный белок; последовательность, кодирующая N-концевой домен подлежащего секреции белка1..54
/gene="TCR1A"
7misc_featureУчасток, который не может быть описан никаким другим ключом; новое или редкое свойство21445..21450
/note="transcription regulatory sequence mRNA2"
8regulatoryУчасток последовательности, который принимает участие в регуляции трансляции или транскрипции644..650
/gene="tRNA-Leu(UUR)"
/regulatory_class="minus_35_signal"
9polyA_siteСайт на РНК-транскрипте, к которому будут присоединены остатки аденина в ходе посттранскрипционного полиаденилирования863
/gene="crasp"
10repeat_regionУчасток генома, содержащий повторяющиеся элементы1..206
/rpt_type=tandem
/satellite="microsatellite:Gals032"

Состояние дел в одном из массовых геномных проектов

Я выбрала проект 100K Pathogen Genome Project, целью которого является секвенирование геномов 100000 инфекционных микроорганизмов и составление из них публично доступной базы данных для использования в здравоохранении, предсказания вспышек заболеваний и детектирования патогенов. Проект был запущен в июле 2012 года. Ссылка на официальный сайт проекта. Компаниями-партнёрами, запустившими проект, были UC Davis, Agilent Technologies и the US Food and Drug Administration (Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США). Главным инициатором стал Bart C. Weimer из компании UC Davis. Последняя публикация по проекту Информации по планируемому году завершения и числу отсеквенированных геномов на 2016 год мне не удалось найти: официальный сайт не даёт никакой информации по этому поводу :(

Таблица митохондриальных генов одного из организмов указаного таксона

Мне достался таксон Euglenozoa. Многие представители этой группы не имеют типичных митохондрий, вместо этого митохондрии у них преобразованы в особые структуры, называемые кинетопластами, поэтому поиск проводился не только по митохондриальным геномам, но и по кинетопластным геномам (считаем, что кинетопласты суть митохондрии).

Я использовала следующий поисковый запрос: "Euglenozoa"[Organism] AND complete[All Fields] AND (kinetoplast[All Fields] OR mitochondrion[All Fields]) AND genome[All Fields] NOT fosmid[All Fields] NOT cds[All Fields]. Он выдал мне 4 записи из GenBank.

Я выбрала организм Leishmania tarentolae, для которого известен полный кинетопластный геном.

Чтобы получить список всех кинетопластных генов, я прошла по ссылке Gene в разделе Related information, где представлена таблица с информацией обо всех генах. Ее нужно было сохранить так, чтобы гены располагались в порядке следования по цепи ДНК. Для этого я воспользовалась опцией Sort by Chromosome. Ссылка на файл со всеми генами. Однако список нуждается в редактировании, так как в нём содержатся и гены РНК. Для этого я скопировала содержимое файла Excel и удалила оттуда гены, не кодирующие белки и кодирующие только РНК. Ссылка на файл с белоккодирующими генами

Таблица размеров геномов

Размеры геномов приводятся в парах оснований (п. о.)

Группа организмовМинимальныйТипичныйМаксимальныйИсточники
Вироиды246~350467[1]
Вирусы1700~200002473870[2], [3], [4]
Бактерии и археи159662~7000014000000[5], [6], [7]
Эукариоты551000Точно нельзя сказать,
слишком сильно варьирует
670000000000[5], [8]

Источники

[1] Katsarou K., Rao A. L., Tsagris M., Kalantidis K. Infectious long non-coding RNAs. (англ.) // Biochimie. — 2015. — DOI:10.1016/j.biochi.2015.05.005. — PMID 25986218.

[2] http://www.giantvirus.org/top.html

[3] http://bionumbers.hms.harvard.edu/bionumber.aspx?&id=105570&ver=4

[4] https://www.ndsu.edu/pubweb/~mcclean/plsc411/viral-genome-structures-lecture-and-overheads.pdf

[5] https://en.wikipedia.org/wiki/Smallest_organisms

[6] Han, K; Li, ZF; Peng, R; Zhu, LP; Zhou, T; Wang, LG; Li, SG; Zhang, XB; Hu, W; Wu, ZH; Qin, N; Li, YZ (2013). "Extraordinary expansion of a Sorangium cellulosum genome from an alkaline milieu.". Scientific Reports. 3: 2101. doi:10.1038/srep02101. PMID 23812535.

[7] https://en.wikipedia.org/wiki/Bacterial_genome_size

[8] https://www.researchgate.net/publication/235907922_Largest_and_Smallest_Genome_in_the_World


© Елизавета Минина 2015