Нуклеотидные банки данных

Текстовое описание:

1.Геном собаки

(Они ненавидят меня, ведь вместо весёлых прогулок мы мучительно делаем биоинформатику)

В качестве организма выбран Canis lupus familiaris: отличается огромной вариативностью фенотипа. Поиск в базе Genomes выдал две сборки, одна - вплоть до хромосом (боксёр, сука), вторая - на уровне контигов (пудель, сука), однако поиск в genome assembly выдаёт ещё и третью сборку, также на уровне контигов (бигль, сука).
Среди ссылок на ресурсы по геному собаки были найдены три "genome project", на один из которых шла переадресация (видимо, в связи с отсутствием страницы), остальные доступны по ссылкам: The NHGRI dog genome project и dog genome project at BROAD institute/ Проекты по секвенированию генома собаки, найденные в базе NCBI: (условия поиска - ("Canis lupus familiaris"[Organism] OR dog[All Fields]) AND "genome sequencing"[All Fields])
  1. Canis lupus familiaris
  2. A collection of grey wolves and dogs Genome sequencing
  3. Mizzou Comparative Canine Resequencing
  4. Canis lupus familiaris strain:Chinese Crested Genome sequencing
  5. Whole Genome Sequencing of Korean Jindo Dog
  6. Canis lupus familiaris Genome sequencing
  7. Canis lupus familiaris strain:Village Dogs Genome sequencing
  8. Canis lupus familiaris
  9. Canis lupus familiaris strain:Norwegian Elkhound
  10. Canis lupus familiaris Genome sequencing
  11. Canis lupus familiaris
  12. Canis lupus familiaris
  13. Whole genome sequencing of 12 breeds of Canis lupus familiaris
  14. Canis lupus familiaris strain:Norwegian Lundehund
  15. Canis lupus familiaris beagle Genome Sequencing
  16. Boxer 7.6x whole genome shotgun assembly by the Dog Genome Sequencing Consortium
  17. Canis lupus familiaris (dog) Reference genome sequence


В качестве описываемой сборки взята наиболее полная. Организм, из которого получен образец: Собака домашняя породы Боксёр, сука. Геном собаки состоит из 38 аутосом и 39-ой половой хромосомы. Образец один, предоставлен Agencourt Bioscience Corporation, 2014-08-06 и использовался в двух проектах(две последние ссылки списка). Метод секвенирования - по Сэнгеру, уровень сборки - хромосомы, геном представлен полностью. Детальная информация о сборке на скриншоте:

Информация о длинах скэффолдов и покрытии на каждой хромосоме:

Для получения генома было получено чуть более 27 тысяч контигов (Таблица контигов ). Упорядочив вывод по длине, увидим, что максимальная длина контига составила 2428071, минимальная - 136 баз. ( самый короткий контиг )

2.Мох Physcomitrella patens

Отдел Бриофитовые, используется в качестве модельного организма благодаря быстрой смене поколений и преимущественно гаплоидному жизненному циклу. По запросу "Physcomitrella patens"[Organism] AND "complete genome"[All Fields] AND "mitochondrial DNA"[All Fields] выходим на митохондриальный геном, далее в Related information следуем по ссылке Genome к описанию организма, где в таблице Replicon info в строке MT приведена сводная информация по митохондриону мха. Митохондрион размером 105,34Кб кодирует 42 белка, 3 рРНК, 24тРНК - суммарно 69 генов.
Пройдя от митохондриального генома по другой ссылке - Gene - в Related info и применив сортировку по хромосоме, получим таблицу из 69 генов митохондриона, упорядоченных по местоположению в нём. (список генов)

3. Ключи раздела "особенности"

Перейдя в раздел "NCBI help manual" и выполнив поиск по "features table keys", выйдем через несколько ссылок на определения таблицы особенностей, где в разделе 7.2 Appendix II: Feature keys reference описаны искомые ключи. Копипаста! перевод части раздела:
  1. assembly_gap - гэп между двумя компонентами сборки транскриптома или генома.
    Забавно, ключ описан в стандарте, но не находится в базе по запросу assembly_gap[Feature key]
  2. attenuator - регуляторная область, контролирующая экспрессию некоторых бактериальных оперонов либо участок последовательности между промотором и первым структурным(?) геном, вызывающий частичную отмену транскрипции.
    Был отменён 15 декабря 2014 года, взамен используется ключ regulatory в следующем виде:
    		regulatory  1041893..1042065
    				/regulatory_class="attenuator"
    				/note="Lys leader"
    		
  3. centromere - область биологического интереса, определённая как центромера и охарактеризованная экспериментально.
    		centromere  555957..556073
    				/note="CEN16; Chromosome XVI centromere"
    				/db_xref="SGD:S000006477"
    		
  4. D-loop - петля смещения, область внутри митохондриальной ДНК, в которой короткий участок спарен с одной цепочкой ДНК, вытесняя комплементарную ей цепь. Также используется для описания вытеснения одной из цепей дуплекса ДНК другой одноцепочечной последовательностью в реакции, катализируемой белком RecA
    		D-loop      14887..15205
    				/note="putative control region; A+T rich; contains origin
    				of replication"
    		
  5. exon - область генома, кодирующая участки остающиеся при сращивании мРНК, рРНК и тРНК. Может содержать 5' и 3'-нетранслируемые области и все кодирующие последовательности.
    		exon        101..1411
    				/gene="SOX30P1"
    				/inference="alignment:Splign::RefSeq|NM_001308165.1"
    				/pseudo
    		
  6. iDNA - промежуточная ДНК, ликвидируется при любой рекомбинации.
    		iDNA        1..2377
    				/gene="J-beta-2.1"
    		
  7. intron - Участок ДНК, удаляющийся после транскрипции посредством сращивания между собой других участков, экзонов, расположенных по обеим сторонам от него
    		intron      <1..>688
    				/gene="Timm44"
    				/number=2
    		
  8. LTR - длинный концевой повтор, последовательность, прямо повторяющаяся на обоих концах определённого участка, вроде той, что обычно находят в ретровирусах
    		LTR         <1..545
    				/note="5'LTR"
    		
  9. misc_binding - сайт нуклеиновой кислоты, ковалентно или нековалентно связывающий другой фрагмент, который нельзя описать другим ключом связывания (primer_bind или protein_bind)
    		misc_binding    complement(41465..41660)
    				/note="cobalamin riboswitch; Derived by automated
    				computational analysis using gene prediction method:
    				cmsearch."
    				/bound_moiety="adenosylcobalamin"
    		
  10. ncRNA - ген, кодирующий не белок и не какую-либо из обычных РНК - рибосомную или транспортную,но функциональная молекула которого является РНК-транскриптом.
    		ncRNA       72629..72982
    				/ncRNA_class="RNase_P_RNA"
    				/locus_tag="TU73_RS16255"
    				/product="bacterial RNase P"
    				/note="Derived by automated computational analysis using
    				gene prediction method: cmsearch."
    		

4. Сервис BLASTn для последовательности из №6

В standart nucleotide BLAST задаём сначала поиск по прямой последовательности и упорядочиваем выдачу по идентичности, т.к. покрытие с учётом того, как получена последовательность, играет меньшую роль в доказательстве сходства. Первым в списке идёт ген гистона H3 организма Brada Inhabilis voucher WS1017 с идентичностью 99% и практически нулевым (exp(-178)) e-value:

Поиск по обратной цепи выдаёт первым его же, но с идентичностью 100%:

Древо сходства гена:

Возьмём соседей по выдаче из разных таксонов внутри полихет (cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta): Brada inhabilis, Chaetozone setosa и Protodriloides chaetifer, у всех найдённые гены кодируют гистон H3.

Организм Таксономия CDS (fasta) AAC sequence (fasta)
Brada inhabilis Palpata; Canalipalpata; Flabelligerida; Flabelligeridae; Brada H3_gene H3_proteine
Chaetozone setosa Scolecida; Spionida; Cirratulidae; Chaetozone H3_gene H3_proteine
Protodriloides chaetifer Polychaeta incertae sedis; Protodrilidae; Protodriloides H3_gene H3_proteine

Результаты выравнивания CDS с помощью muscle в JalView (сверху вниз: исходная, inhabilis, setosa, chaetifer):

С 31-го по 377-ой нуклеотид у последовательности из №6 и Brada inhabilis несовпали только 2 неопознанных секвенатором нуклеотида (354 и 356), два других содержат около 25 нуклеотидных замен на ~320 нуклеотидов, то есь заменяется 1 из 13 в среднем. Выравнивание аминокислотных последовательностей белков-продуктов этих генов (сверху вниз: inhabilis, setosa, chaetifer):

Древо сходства по результатам выравнивания:

Вывод: ген, определённый по хроматограмме в №6, кодирует гистон H3 в организме многощетинкового червя, это Brada inhabilis. (с хорошей степенью достоверности, хотя исследование (стр. 61) по данному виду отмечает большую вариативность образцов гена Н3, чем допускается в рамках одного вида)