Семестры
Сайт ФББ МГУ
Kodomo Wiki
NCBI

RanHummer personal web-site


Банки нуклеотидных последовательностей


Задание 1. Охарактеризовать качество сборки генома эукариотического организма

Организм: Streptococcus agalactiae (Browse by organism)

Число сборок генома: 628

Число проектов по секвенированию организма: 384

Число образцов: 1940

Выбрана GCA_000012705.1 (Streptococcus agalactiae ATCC 13813)

BioProjects: PRJNA53057

Доступ

PRJNA53057

Тип данных

Секвенирование генома

Сфера деятельности

Monoisolate

Организм

Streptococcus agalactiae ATCC 13813[Taxonomy ID: 888745]

Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus; Streptococcus agalactiae; Streptococcus agalactiae ATCC 13813

Представление

Дата регистрации: 20-Jan-2011 Baylor College of Medicine

Метка префикса локуса

HMPREF9171

Данные проекта:

Имя ресурса

Число

ссылок

Данные секвенирования

Нуклеотиды (Геномная ДНК)

156

WGS master

1

Капиллярные трассы (Архив трассировок)

1

Белковые последовательности

2211

Другие наборы данных

BioSample

1

Assembly

1

BioSample: SAMN00217013

Идентификаторы

BioSample: SAMN00217013; SRA: SRS173799

Организм

Streptococcus agalactiae ATCC 13813
Клеточные организмы; Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus; Streptococcus agalactiae; Streptococcus agalactiae

Пакет

MIGS: cultured bacteria/archaea; version 4.0

Атрибуты

Дата сбора

не определено

Предполагаемый размер

2274000

Хозяин

Homo sapiens

Идентификаторы исходного материала

ATCC 13813, DSM 2134

Функция среды

Homo sapiens-ассоциированный обитатель [ENVO:00009003]

Тип исследования

отсутствует

Идентификатор узла таксономии

9606 (Homo sapiens)

Название проекта

Streptococcus agalactiae ATCC 13813

Географическое местоположение

не определено

Биом окружающей среды

Наземный биом [ENVO:00000446]

Материал окружающей среды

биологический продукт [ENVO:02000043]

Ссылка для биоматериала

не определено

Широта и Долгота

не определено

Состояние изоляции и роста

не определено

Пакет окружающей среды

отсутствует

Штамм

ATCC 13813

Количество репликонов

не определено

Сбор культуры

ATCC:13813

Источник изоляции

ротовая полость

Заключительная стратегия (глубина охвата)

Level 2: High-Quality Draft52.97x;134

Sop

http://hmpdacc.org/doc/CommonGeneAnnotation_SOP.pdf

Тип проекта

Reference Genome

Misc param: HMP body site

не определено

Экстракция нуклеиновых кислот

не определено

Сборка

Newbler v. 2.3-042010

Misc param: HMP supersite

Орально

Метод секвенирования

454-Paired-end

Description

Streptococcus agalactiae strain ATCC 13813

Keywords: GSC:MIxS;MIGS:4.0

Ссылки

Human Microbiome Project at Baylor College of Medicine

BioProject

PRJNA53057 Streptococcus agalactiae ATCC 13813
Получить все образцы из этого проекта

Представление

BCM; 2011-03-03

Доступ:

SAMN00217013

ID:

217013

Число контигов: 134

Число скэффолдов: 21

N50: 31548

L50: 23

WGS: AEQQ01000001-AEQQ01000134

Самый длинный контиг: 78279

Самый короткий контиг: 532

AEQQ01000001, последовательность одного из контигов

Задание 2. Составить таблицу митохондриальных генов указанного мха

По запросу “Buxbaumia aphylla[ORGN] gene_in_mitochondrion[PROP] complete genome[TI]” вышло два почти одинаковых файла, из которых я выбрал новый (03-JUN-2015).

Число генов РНК - 27 (3 рРНК, 24 тРНК), число генов белков - 40 (а всего генов 67).

Ссылка на файл с таблицей генов .

Задание 3. Описание ключей в таблицах особенностей

    Ключи
  1. misc_binding - участок нуклеиновой кислоты, который ковалентно или нековалентно связывается с некоторой молекулой, не являющейся белком или праймером. Пример - DL128564.1
    misc_binding    51078..51102
                FT                   /note='99-79335-60.probe'
                FT   misc_binding    61281..61305
                FT                   /note='99-79336-369.probe'
                FT   misc_binding    80590..80614
                FT                   /note='99-79338-332.probe'
  2. misc_feature - участок, представляющий интерес, не описывающийся другими ключами; новое или редкое свойство. Пример - FR746099.1
    misc_feature    complement(join(101615..101707,101711..101797))
                         /locus_tag="Hqrw_1098"
                         /note="locus_tag: Hqrw_1098;
                         product: conserved hypothetical protein (nonfunctional);
                         gene has an in-frame stop codon and is truncated at the
                         N-terminus"
                         /pseudo
  3. modified_base - модифицированный нуклеотид и должен быть замещен указанной молекулой. Пример - DI478390.1
    FT   modified_base   (3)..(3)
                FT   a, c, t, g, unknown or other
  4. polyA_site - сайт РНК-транскрипта, к которому будут присоединены адениновые остатки в процессе пост-транскрипционного полиаденилирования. Пример - L25286.1
    polyA_site      5161
                         /gene="COL15A1"
  5. mobile_element - участок генома, содержащий подвижные элементы. LN774864.1
    mobile_element  72..234
                         /gene="NAA16"
                         /mobile_element_type="SINE:WSINE1"
  6. ncRNA - ген некодирующей РНК. CP004140.1
    ncRNA           3475..3524
                         /ncRNA_class="other"
                         /locus_tag="SM2011_c06000"
                         /product="putative ncRNA"
                         /note="corresponds to SMc06000;
                         based on oriented RNAseq data"
  7. protein_bind - участок нуклеиновой кислоты, с которой нековалентно связывается белок. BD076083.1
    FT   protein_bind    191..206
                FT   protein_bind    193..204
                FT   protein_bind    193..204
                FT   protein_bind    complement(193..204)
  8. regulatory - участок последовательности, регулирующий транскрипцию или трансляцию (промотор, энхансер, терминатор, участок связывания с рибосомами, GC-участок, и т.д.). Пример -
    regulatory      complement(5755..5785)
                         /regulatory_class="promoter"
                         /note="lac promoter; promoter for the E. coli lac operon"
  9. rep_origin - ориджин репликации. NC_005943.1
    rep_origin      5681..5713
  10. 3'UTR - 1) участок на 3' конце зрелого транскрипта (следует за стоп-кодоном), который не транслируется в белок 2) участок на 3' конце РНК вируса (следует за последним стоп-кодоном) который не транслируется в белок
    3'UTR           6273..6431
                         /gene="3'UTR"
                         /locus_tag="NZ87_gp6"

Задание 4. Установить, к какому гену принадлежит последовательность, полученная в практикуме 6, и таксономию организма

Ссылка на последовательность

Description

Max score

Total score

Query cover

E value

Ident

Accession

Arabidopsis thaliana 18S rRNA gene

506

506

100%

1e-141

79%

X16077.1

A.thaliana rRNA repeat unit, most frequent IGR type

506

506

100%

1e-141

79%

X52322.1

Arabidopsis thaliana chromosome 3, complete sequence

500

571

100%

5e-140

79%

CP002686.1

Arabidopsis thaliana ecotype Col1 18S ribosomal RNA gene, partial sequence

500

500

100%

5e-140

79%

GQ380689.1

Arabidopsis thaliana chromosome 2, complete sequence

495

495

100%

2e-138

79%

CP002685.1

Arabidopsis thaliana chromosome 2 BAC F23H14 genomic sequence, complete sequence

495

495

100%

2e-138

79%

AC006837.16

Arabidopsis thaliana At2g16590/F1P15.3 mRNA sequence

495

495

100%

2e-138

79%

AY056114.1

Ясно видно, что это последовательность из гена 18S рибосомальной РНК.

Taxonomy

Number of hits

Number of Organisms

Description

Arabidopsis

270

3


--- Arabidopsis thaliana

263

1

Arabidopsis thaliana hits

--- Arabidopsis lyrata

1

2

Arabidopsis lyrata hits

------ Arabidopsis lyrata subsp. lyrata

6

1

Arabidopsis lyrata subsp. lyrata hits

Таксономически все лучшие находки принадлежат Arabidopsis thaliana , чья таксономия такова: cellular organisms ; Eukaryota ; Viridiplantae ; Streptophyta ; Streptophytina ; Embryophyta ; Tracheophyta ; Euphyllophyta ; Spermatophyta ; Magnoliophyta ; Mesangiospermae ; eudicotyledons ; Gunneridae ; Pentapetalae ; rosids ; malvids ; Brassicales ; Brassicaceae ; Camelineae ; Arabidopsis .

Выравнивание лучших находок можно посмотреть в Jalview проект-файле.

Уровень сходства с лучшей находкой – 21 замена из 100 п.н.

Уровень сходства с лучшей находкой из другого вида – 16 замен из 100 п.н. Эта находка имеет следующие параметры:

Description

Max score

Total score

Query cover

E value

Ident

Accession

Arabidopsis lyrata subsp. lyrata predicted protein, mRNA

304

304

47%

8e-81

84%

XM_002884195.1


© Поляков Игорь aka RanHummer