Банки нуклеотидных последовательностей

Характеристика качества сборки генома Candida albicans

Для работы я выбрала грибок Candida albicans из семейства Saccharomycetes отдел Ascomycota, который является возбудителем кандидоза (молочницы). В норме этот грибок живёт в желудочно-кишечном тракте у 80% людей, не вызывая воспалений. Однако, для людей с ослабленным иммунитетом возможно увеличение количества грибковых клеток, что приводит к кандидозу.

На сайте NCBI я обнаружила 36 сборок генома, из которых лишь одна GCA_000149445.2 была наиболее полной, столько же проектов по секвенированию организма и 35 образцов.
Для выбранной мной сборки использовался образец SAMN02953609 (BioSample ID: 2953609). В GenBank он имеет ID gb|AAFO00000000.1. Это штамм Candida albicans WO-1, который имеет следующее систематическое положение по номенклатуре NCBI: cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; Saccharomyceta; Saccharomycotina; Saccharomycetes; Saccharomycetales; Debaryomycetaceae; Candida/Lodderomyces clade; Candida; Candida albicans (таксономический ID 294748).
Проект по секвенированию данного организма PRJNA16373 (BioProject ID: 16373) был опубликован 4 января 2009 года в журнале Nature в статье под названием "Evolution of pathogenicity and sexual reproduction in eight Candida genomes", что переводится как "Эволюция патогенности и полового размножения в геномах восьми видов из рода Candida". Но зарегистрирован этот проект был 28 марта 2006 года двумя организациями: University of Iowa, Department of Biological Sciences, USA, Iowa City и Broad Institute. Он был выполнен в Broad Institute с 10-кратным покрытием и с использованием секвенирования всего генома методом дробовика, суть которого заключается в фрагментации ДНК на мелкие участки случайным образом, которые затем секвенировали обычными методами. Таким образом, перекрывающиеся случайные фрагменты ДНК можно собрать в одну большую последовательность. Также проект можно найти в базе данных GOLD (Genomes Online Database) по идентификатору Gp0002578. Помимо этого, есть публикации в PubMed и PMC (PubMed Central). Можно найти результаты секвенирования в базах данных BioSample и Assembly. В результате секвенирования было распознано 5 хромосом: номера 3 (1,768,732 пн), 5 (1,198,695 пн), 6 (1,043,947 пн), 7 (958,737 пн), R (2,299,365 пн), определено 5752 последовательностей белка. Общая длина синтезированной ДНК равна 14,472,953 пн, а общая длина гэпов в сборке равна 56,540 пн.
Число контигов оказалось равным 86, скэффолдов - 17 (22, если учитывать 5 хромосом). Подробные данные о названиях и длинах контигов и скэффолдов можно найти в таблице. Гэпы между скэффолдами отсутствуют. Общее количество хромосом и плазмид в сборке равно 9. Ниже представлены характеристики качества сборки (таблица 1).

Таблица 1. Параметры сборки
Количество N50 L50 Самый длинный (его длина) Самый короткий (его длина)
Контиг 86 537,130 пн 10 AAFO01000007 (1,293,053 пн) AAFO01000076 (2,103 пн)
Скэффолд 17 1,768,732 пн 3 CH672346.1 (3,194,068 пн) GG670284.1 (5,039 пн)

Ссылка на последовательность AAFO01000058 контига с длиной в 537,130 пн.

Описание ключей, используемых в таблицах особенностей формата GenBank

  • source
  • Указывает на биологический источник участка генетического материала определённой протяжённости; Ключ является обязательным; Разрешено указывать этот ключ более одного раза на одну последовательность; Каждая запись должна иметь как минимум один такой ключ, охватывающий всю последовательность, или несколько ключей, которые вместе охватывают всю последовательность.

    source          1..86
                    /organism="Candida albicans WO-1"
                    /mol_type="genomic DNA"
                    /strain="WO-1"
                    /db_xref="taxon:294748"
  • regulatory
  • Любая область последовательности, функция которой заключается в регуляции транскрипции или трансляции.

    regulatory      95..100
                    /gene="sod"
                    /regulatory_class="ribosome_binding_site"
  • gene
  • Область биологического интереса, идентифицированная как ген, которой было присвоено название; Ключ описывает интервал ДНК, соответствующий генетическому признаку или фенотипу; По определению он не строго привязан к позиции концов интервала, так как ключ предназначается для обозначения области, где ген расположен.

    gene            95..746
                    /gene="sod"
  • CDS
  • Кодирующая последовательность; Последовательность нуклеотидов, которая соответствует последовательности аминокислот в белке, включая стоп-кодон; Ключ включает последовательность аминокислот, транслированную с последовательности нуклеотидов.

    CDS             109..717
                    /gene="sod"
                    /EC_number="1.15.1.1"
                    /codon_start=1
                    /transl_table=11
                    /product="superoxide dismutase" 
                    /db_xref="GI:44011"
                    /db_xref="GOA:P28763"
                    /db_xref="InterPro:IPR001189"
                    /db_xref="UniProtKB/Swiss-Prot:P28763"
                    /protein_id="CAA45406.1"
                    /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
                    GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
                    AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
                    LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
  • mRNA
  • мРНК (матричная РНК); Включает 5' нетранслируемую область (5'UTR) кодирующей последовательности гена (CDS = coding sequences, экзоны) и 3' нетранслируемую область (3'UTR).

    mRNA            join(1603..1891,2322..2438,2538..2633,2801..2843,
                    2918..3073,3167..3247,3874..3972,4082..4637)
                    /gene="CCT"
  • 5'UTR
  • 1) Область на 5'-конце зрелого транскрипта (предшествующая старт-кодону), которая не транслируется в белок.
    2) Область на 5'-конце вирусной РНК (предшествующая первому старт-кодону), которая не транслируется в белок.

    5'UTR           1603..1712
                    /gene="CCT"
  • 3'UTR
  • 1) Область на 3'-конце зрелого транскрипта (после стоп-кодона), которая не транслируется в белок.
    2) Область на 3'-конце вирусной РНК (после последнего стоп-кодона), которая не транслируется в белок.

    3'UTR           4310..4637
                         /gene="CCT"
  • protein_bind
  • Сайт нековалентного связывания белка в нуклеиновых кислотах.

    protein_bind    166..175
                    /gene="Mlp84B"
                    /note="matches consensus at only 9 of 10 positions"
                    /bound_moiety="MEF2"
  • exon
  • Область генома, которая кодирует части сплайсированных мРНК, рРНК и тРНК; может содержать 5'UTR (5' нетранслируемую область), все CDS (всю кодирующую последовательность гена) и 3'UTR (3' нетранслируемую область).

    exon            1310..2135
                    /gene="Mt-PK"
                    /note="Form I,V,VI,VII,VIII mRNA"
  • repeat_region
  • Область генома, содержащая повторяющиеся элементы.

    repeat_region   5153..5434
                    /gene="Mt-PK"
                    /rpt_family="Alu-J"
                    /rpt_type=dispersed

Описание одного из массовых геномных проектов

100K Pathogen Genome Project был запущен в июле 2012 года Бартом Веймером (Bart Weimer). Целью данного проекта является секвенирование геномов 100,000 инфекционных микроорганизмов, чтобы создать базу данных бактериальных последовательностей генома, что ускорит диагностику болезней, связанных с порчей продуктов питания, и сократит количество вспышек инфекционных заболеваний. Изначальными партнёрами-учредителями данного проекта являются Калифорнийский университет в Де́йвисе, американская компания Agilent Technologies, производящая измерительное, электронно-медицинское оборудование и оборудование для химического анализа, и американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (USFDA). В качестве соисполнителей выступили Центры по контролю и профилактике заболеваний США (CDC) и Министерство сельского хозяйства США (USDA). В данном проекте осуществляется высокопроизводительное секвенирование следующего поколения (next-generation sequencing (NGS)) для исследования геномов целевых микроорганизмов. Полногеномное секвенирование проводится для небольшого числа микроорганизмов с целью дальнейшего их использования в качестве эталонных геномов. Большинство бактериальных штаммов будет секвенировано и собрано как "эскизы" геномов. Однако, в рамках проекта также производятся закрытые геномы для различных кишечных патогенов. Эта стратегия даёт возможность совместной работы по всему миру для определения наборов генетических биомаркеров, связанных с важными патогенными особенностями. Этот пятилетний проект в результате приведёт к созданию свободной и общедоступной базы данных с информацией о последовательности генома каждого патогена. Завершённые последовательности будут храниться в общественной базе данных Национальных институтов здравоохранения США (NIH) в Национальном центре биотехнологической информации США (NCBI). Используя эту базу данных, учёные смогут разрабатывать новые методы контроля болезнетворных бактерий в пищевой цепи.
Подробную информацию о проекте вы можете найти на сайте NCBI или на официальном сайте проекта.

Составление таблицы митохондриальных генов организма из типа Euglenozoa

Сначала я осуществила поиск в базе данных Nucleotide полных митохондриальных геномов организмов из типа Euglenozoa с помощью запроса:

"mitochondrion"[TITL] AND "Euglenozoa"[Organism]

В результате я получила 8 ссылок, из которых 6 - это секвенированные линейные РНК. Лишь 2 ссылки указывали на кольцевые молекулы митохондриальной ДНК из организма Diplonema papillatum. Тогда следующий запрос выдаст все полные митохондриальные геномы таксона и число находок (2):

("mitochondrion"[TITL] AND ("complete sequence"[TITL] OR "complete genome"[TITL])) AND 
"Euglenozoa"[Organism]

Поиск в базе данных RefSeq не дал результатов по запросу:

("mitochondrion"[TITL] AND ("complete sequence"[TITL] OR "complete genome"[TITL])) AND 
"Euglenozoa"[Organism] AND srcdb_refseq[PROP]

Обе находки относятся к базе данных GenBank. Я выбрала находку с ID=JQ302962.1

Diplonema papillatum относится к роду свободноживущих протистов, которые отличаются от представителей рода Rhynchopus отсутствием полностью жгутиковых дисперсионных стадий. Для представителей рода Diplonema характерно наличие двух коротких жгутиков одинаковой длины с двумя субапекальными щелями. Интересно, что были зарегистрированы случаи заражения моллюсков данными протистами и случаи внезапного разложения аквариумных растений, если в воде присутствовали представители рода Diplonema. Протисты были изначально описаны в 1914 году. Позднее они были заново обнаружены в 1960-х годах и ошибочно отнесены к классу Эвгленовых. Ниже представлена фотография рассматриваемого организма.

В выбранной находке содержится 5763 пн, но всего один ген "nad7", расположенный с 2534 нуклеотида по 2715 нуклеотид включительно:

2521               cctccag agtgtcctag ctgtattcat ggcttacagg atgacagcta
2581 cgacctctca gggcatccat gctgtggaag gtccaaaggg agagctgcac atcagcctca
2641 ctgtcaccaa cagcagcatg tgacggtgca gagtgcgtcc tgcagaccta ggacacctcc
2701 taggactaca tgcac

С помощью программы JalView я построила выравнивание последовательностей кольцевых молекул ДНК из обеих находок. Вы можете посмотреть изображение выравнивания. По большей части длины хромосомы A4005 и A3216 схожи, но сильные различия начинаются именно в том месте, где находится ген. С 2520 нуклеотида по 2742 нуклеотид включительно последовательности существенно отличаются, поэтому мне кажется маловероятным, что эти нуклеотиды кодируют белок.

Считается, что данный ген кодирует субъединицу 7 НАДН-дегидрогеназы:

LQSVLAVFMA YRMTATTSQG IHAVEGPKGE LHISLTVTNS SMWRCRVRPA DLGHLLGLHA

Так как ген всего лишь один, то всю информацию о нём я разместила на этой странице в таблице 1.

Таблица 1. Информация о гене из митохондрии Diplonema papillatum
Таксономический идентификатор 91374
Название организма Diplonema papillatum
Штамм ATCC 50162
Короткое название гена nad7
Полное название гена -
Описание белка NADH dehydrogenase subunit 7
Расположение гена ДНК митохондрии
Хромосома A4005
Идентификатор генома JQ302962 (GenBank)
Координаты гена в хромосоме 2534..2715
Ориентация в геноме plus
Идентификатор белка AFW98722 (GenBank)
Классификация фермента 1.6.5.3
Дата секвенирования 29 августа 2013 год
Идентификатор статьи 23324603 (PubMed)
Название статьи RNA-level unscrambling of fragmented genes in
Diplonema mitochondria.