В качестве эукариотического организма была выбрана криптофитовая водоросль Guillardia theta. Имеется одна сборка генома этого организма (Guith1). Однако проектов по секвенированию целых пять. Дело в том, что в клетках криптофитовых водорослей имеется два ядра: одно ядро принадлежит собственно криптофитовой водорослью, а второе ядро лежит между второй и третьей мембранами хлоропласта (всего их 4) и называется нуклеоморфа. Нуклеоморфа - это редуцированное ядро водоросли, содержащей хлоропласт и проглоченной предком криптофитовой водоросли. Секвенированию генома нуклеоморфа посвящено два проекта, а геному собственно криптофитовой водоросли - три других проекта. Во всех пяти проектах использовались моноизоляты (то есть один образец).
Рассмотрим сборку Guith1. В ней имеется 669 скэффолдов и 5126 контигов, самый длинный контиг (N50) имеет длину 40445 bp, самый маленький (L50) - 587. Исследуемый образец имеет идентификатор SAMN00116900 (таксономический идентификатор 905079) и представляет собой штамм CCMP2712 криптомонады ''Guillardia theta'' (больше в поле Description на странице образца ничего не указано). Работа была выполнена в рамках проекта (BioProject) PRJNA53577, зарегистрирован 2 ноября 2012. По итогам работы была выпущена публикация Curtis BA et al., "Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs.", Nature, 2012 Nov 28;492(7427):59-65.
Скачать таблицу контигов. Чтобы посмотреть скэффолды, нужно задать в NCBI поиск по нуклеотидам и ввести запрос JH992965:JH993633[PACC] или JH992965:JH993633[accn]. Скачать последовательность контига 11 в FASTA-формате
Guillardia theta, штамм CCMP2712
В таблице ниже приведён результат выполнения задания. Информация взята отсюда.
№ | Ключ | Описание | Пример |
1 | CDS | Начало и конец кодирующей последовательности, соответствующей данному продукту данного гена | 23..400 /product="alcohol dehydrogenase" /gene="adhI" |
2 | rep_origin | Ориджин репликации; сайт старта дупликации нуклеиновой кислоты с целью получения двух идентичных копий | 6 /direction=LEFT /note="ori" |
3 | source | Биологический источник (например, биологический вид) рассматриваемой последовательности | 1..1000 /culture_collection="ATCC:11775" /culture_collection="CECT:515" |
4 | V-region | Вариабельный участок легкой и тяжелой цепей иммуноглобулинов, а также альфа, бета, гамма цепей рецепторов Т-клеток; может быть составлен из V-, D-, J-сегментов и N-участков | 1..277 /gene="VFM1" /product="immunoglobulin heavy chain variable region" |
5 | tRNA | Зрелая тРНК | 655..730 /gene="tRNA-Leu(UUR)" /anticodon=(pos:678..680,aa:Leu,seq:taa) /product="transfer RNA-Leu(UUR)" |
6 | sig_peptide | Последовательность, кодирующая сигнальный белок; последовательность, кодирующая N-концевой домен подлежащего секреции белка | 1..54 /gene="TCR1A" |
7 | misc_feature | Участок, который не может быть описан никаким другим ключом; новое или редкое свойство | 21445..21450 /note="transcription regulatory sequence mRNA2" |
8 | regulatory | Участок последовательности, который принимает участие в регуляции трансляции или транскрипции | 644..650 /gene="tRNA-Leu(UUR)" /regulatory_class="minus_35_signal" |
9 | polyA_site | Сайт на РНК-транскрипте, к которому будут присоединены остатки аденина в ходе посттранскрипционного полиаденилирования | 863 /gene="crasp" |
10 | repeat_region | Участок генома, содержащий повторяющиеся элементы | 1..206 /rpt_type=tandem /satellite="microsatellite:Gals032" |
Я выбрала проект 100K Pathogen Genome Project, целью которого является секвенирование геномов 100000 инфекционных микроорганизмов и составление из них публично доступной базы данных для использования в здравоохранении, предсказания вспышек заболеваний и детектирования патогенов. Проект был запущен в июле 2012 года. Ссылка на официальный сайт проекта. Компаниями-партнёрами, запустившими проект, были UC Davis, Agilent Technologies и the US Food and Drug Administration (Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США). Главным инициатором стал Bart C. Weimer из компании UC Davis. Последняя публикация по проекту Информации по планируемому году завершения и числу отсеквенированных геномов на 2016 год мне не удалось найти: официальный сайт не даёт никакой информации по этому поводу :(
Мне достался таксон Euglenozoa. Многие представители этой группы не имеют типичных митохондрий, вместо этого митохондрии у них преобразованы в особые структуры, называемые кинетопластами, поэтому поиск проводился не только по митохондриальным геномам, но и по кинетопластным геномам (считаем, что кинетопласты суть митохондрии).
Я использовала следующий поисковый запрос: "Euglenozoa"[Organism] AND complete[All Fields] AND (kinetoplast[All Fields] OR mitochondrion[All Fields]) AND genome[All Fields] NOT fosmid[All Fields] NOT cds[All Fields]. Он выдал мне 4 записи из GenBank.
Я выбрала организм Leishmania tarentolae, для которого известен полный кинетопластный геном.
Чтобы получить список всех кинетопластных генов, я прошла по ссылке Gene в разделе Related information, где представлена таблица с информацией обо всех генах. Ее нужно было сохранить так, чтобы гены располагались в порядке следования по цепи ДНК. Для этого я воспользовалась опцией Sort by Chromosome. Ссылка на файл со всеми генами. Однако список нуждается в редактировании, так как в нём содержатся и гены РНК. Для этого я скопировала содержимое файла Excel и удалила оттуда гены, не кодирующие белки и кодирующие только РНК. Ссылка на файл с белоккодирующими генами
Размеры геномов приводятся в парах оснований (п. о.)
Группа организмов | Минимальный | Типичный | Максимальный | Источники |
Вироиды | 246 | ~350 | 467 | [1] |
Вирусы | 1700 | ~20000 | 2473870 | [2], [3], [4] |
Бактерии и археи | 159662 | ~70000 | 14000000 | [5], [6], [7] |
Эукариоты | 551000 | Точно нельзя сказать, слишком сильно варьирует | 670000000000 | [5], [8] |
[1] Katsarou K., Rao A. L., Tsagris M., Kalantidis K. Infectious long non-coding RNAs. (англ.) // Biochimie. — 2015. — DOI:10.1016/j.biochi.2015.05.005. — PMID 25986218.
[2] http://www.giantvirus.org/top.html
[3] http://bionumbers.hms.harvard.edu/bionumber.aspx?&id=105570&ver=4
[4] https://www.ndsu.edu/pubweb/~mcclean/plsc411/viral-genome-structures-lecture-and-overheads.pdf
[5] https://en.wikipedia.org/wiki/Smallest_organisms
[6] Han, K; Li, ZF; Peng, R; Zhu, LP; Zhou, T; Wang, LG; Li, SG; Zhang, XB; Hu, W; Wu, ZH; Qin, N; Li, YZ (2013). "Extraordinary expansion of a Sorangium cellulosum genome from an alkaline milieu.". Scientific Reports. 3: 2101. doi:10.1038/srep02101. PMID 23812535.
[7] https://en.wikipedia.org/wiki/Bacterial_genome_size
[8] https://www.researchgate.net/publication/235907922_Largest_and_Smallest_Genome_in_the_World