Банки нуклеотидных последовательностей

Нуклеотидные банки данных

Введение

Для понимания содержания данной работы приведу немного терминологии:
Прочтение, оно же – рид – известная последовательность
Качество прочтения: для каждого нуклеотида определяется качество p – вероятность ошибочного прочтения нуклеотида, Q=-10lgp
Контиг – секвенированный без пропусков фрагмент ДНК
Cкэффолд – набор контигов, про который доказано, что контиги один за другим; разрывы между контигами либо заполняются буквами N в числе, равном предполагаемой длине разрыва; либо заполняются последовательностью нуклеотидов, определенных с низкой достоверностью
Качества сборки:
Покрытие: среднее число ридов, в которые попал каждый нуклеотид
N50: упорядочим контиги по длине по убыванию; найдем первый контиг такой, что он и все более длинные покрывают более половины генома; длина этого контига и есть N50
L50: посчитаем, сколько контигов покрывает половину генома; это и есть L50

1. Характеристика качества сборки генома эукариотического организма

Может использоваться поиск в NCBI Genome, Browse by organism или поиск по БД Genome. Я выбрала вид Apis mellifera (медоносная пчела). Пчела является ценным организмом для изучения из-за уникальных поведенческих черт и социальных инстинктов, имеет важное значение для сельскохозяйственного и научного сообществ как опылитель и модель для исследования иммунитета и заболеваний Х-хромосомы.

Рис.1 Apis mellifera ligustica

Рис.2 Apis mellifera carpathica

Рис.3 Apis mellifera mellifera

Поиск выдал 2 сборки генома; я выберала assembly GCA_000002195.1 - сборка генома по хромосомам.
Технология секвенирования: Sanger; SOLiD; 454, покрытие 8x.
Целью проекта, который ей соответствует, было секвенирование и сборка генома, улучшение полученных ранее другой организацией результатов и лучшее картирование генома.
Число контигов 16,501, скэффолдов 5,645
Ссылка на таблицу контигов
N50 45,688 и L50 1,390
Самый длинный Contig698 AADG06000698.1 333433 bp и самый короткий контиг Contig16478 AADG06016478.1 540 bp
Посмотреть на последовательность самого длинного контига вы можете, нажав на ссылку выше

Проектов по секвенированию организма 2; число образцов 2.
Другой сборке GCA_000819425.1 соответствует образец BioSample: SAMN02437452 с описанием:
Основной целью этого эксперимента является использование генетической информации в селекции устойчивых к варроа (род паразитических клещей) пчел и определение успешности программы сохранения популяции Apis mellifera intermissa в Иордании
Описание проекта BioProject PRJNA230767, в котором использовался данный обрацез: Apis mellifera intermissa - родной подвид пчелы Алжира. A.m.intermissa встречается в Тунисе, Алжире и Марокко, между Атласом и Средиземным и Атлантическим побережьями на площади более 2500 км протяжённостью. Intermissa указывает на рассовую принадлежность пород пчёл тропической Африки и Европы. Ареал обитания теллианская пчелы (второе название пчелы) простирается от Туниса до Марокко. Руттнер описывает чистокровную теллианскую пчелу. Пчела покрыта чёрными волосками, имеет небольшой размер, на тергитах есть светоотражающее покрытие. Поведение агрессивное, нервное, активное, что объясняется защитой улья. A.m.intermissa склонна к роению, показывает защитное поведение и обильное использование прополиса. Экстракция была сделана для образцов ног с помощью набора Qiagen Blood & Tissue Mini. Затем было выполнено секвенирование в Illumina GAIIX Sequencer. Сборки ридов проведены, контигов сгенерированы. Контиги были собраны для скэффолдирования в проекте "Геном алжирской пчелы".

2. 7 ключей, используемых в таблицах особенностей (feature table)

На сайте INSDC я нашла описание ключей, ниже приведены примеры ключей: название, значение, пример в записи базы данных

CDS
кодирующая последовательность белка
CDS 6185..6538
/gene="ND3"
/codon_start=1
/transl_table=5
/product="NADH dehydrogenase subunit 3"
/protein_id="NP_008088.1"
/db_xref="GeneID:807691"
/translation="MKFIFMYFIFIILISSILLLLNKFISIYKKKDYEKSSPFECGFN
PITKANLPFSLPFFLMTMMFLIFDVEIILFLPIIFYLKSSSTMISYLMISIFLILLIT
TLILEWMNNYLNWLF"

precursor_RNA
Любые виды РНК, которые еще не являются зрелым РНК-продуктом; может включать некодирующие РНК (рРНК, тРНК и др.), 5' и 3'-нетранслируемые области
precursor_RNA 85533..85623
/gene="MIR532"
/gene_synonym="hsa-mir-532; mir-532; MIRN532"
/product="microRNA 532"
/transcript_id="NR_030241.2"
/db_xref="GeneID:693124"
/db_xref="HGNC:HGNC:32795"
/db_xref="miRBase:MI0003205"

propeptide
Кодирующая последовательности для области пробелка, который расщепляется с образованием зрелого белкового продукта
propeptide join(241..550,603..971)
/gene="krtC"
/product="pro-neutral protease"

regulatory
Любая область последовательности, которая участвует в регуляции транскрипции, трансляции, репликации или образовании структуры хроматина
regulatory complement(4034..4136)
/regulatory_class="riboswitch"
/inference="COORDINATES: nucleotide
motif:Rfam:12.0:RF00167"
/inference="COORDINATES: profile:INFERNAL:1.1.1"
/note="purine riboswitch; Derived by automated
computational analysis using gene prediction method:
cmsearch."
/bound_moiety="guanine and/or adenine"
/db_xref="RFAM:RF00167"

STS
Сайт последовательности с меткой; короткая, однократная последовательность ДНК, которая характеризует ориентир в геноме и может быть обнаружена ПЦР
STS 74..379
/gene="Krt14"
/gene_synonym="AI626930; CK-14; K14; Krt-1.14; Krt1-14"
/standard_name="Krt16"
/db_xref="UniSTS:547450"

3'UTR
Область на 3'-конце зрелого транскрипта или РНК-вируса, которая не переводится в белок;
3'UTR 7128..7212

transit_peptide
Кодирующая последовательность транзитного пептида для N-концевого домена органеллярного белка; этот домен участвует в посттрансляционном импорте белка в органеллу
transit_peptide 1..330
/note="from atTic20"

3. Состояние дел в одном из массовых геномных проектов

Я расскажу о проекте "Эпигеном человека" [1] (Human Epigenome Project, HEP).
Его цель — идентифицировать и каталогизировать вариабельные позиции метилирования в геноме человека.

Пилотный проект эпигенетики человека осуществляется Консорциумом человеческого эпигенома, включающим The Wellcome Trust Sanger Institute (UK), Epigenomics AG (Germany, USA), The Centre National de Genotypage (France). Проект начался в 1999 году, последняя публикация была в 2004, несмотря на то что он не имел какой-то четкой «конечной цели», по достижении которой он бы считался оконченным. В последней публикакии 2004 года отмечено, что найдено 1.9 млн CpG (в соматических клетках взрослого организма метилирование ДНК обычно происходит в CpG-динуклеотидах).
В качестве подготовки к полномасштабному проекту человеческого эпигенома они завершили экспериментальное исследование моделей метилирования в рамках комплекса основной гистосовместимости (Major Histocompatibility Complex MHC) - области хромосомы 6, которая связана с большим количеством заболеваний, чем в любом другом участке человеческого генома. Они идентифицировали MVP вблизи промотора и других соответствующих областей приблизительно 150 локусов в MHC в тканях из ряда индивидуумов. Это обеспечит беспрецедентное понимание сложной взаимосвязи между генетикой и эпигенетикой, которая лежит в основе как нормального клеточного гомеостаза, так и болезненных состояний, в частности аутоиммунных заболеваний. Анализ и количественное определение образцов метилирования осуществляют с помощью масс-спектрометрических и микроматричных анализов.
Методика: геномная ДНК подвергается химической обработке. Процедура превращает все неметилированные цитозины в другое основание, урацил, используя химический бисульфит. Обработанную бисульфитом ДНК амплифицируют в последующей реакции ПЦР с использованием бисульфитных специфических праймеров. Продукты ПЦР секвенированы.

Последняя публикация ноябрь 2004:
Больше о метилировании [2]

4. Таблицу митохондриальных генов одного из организмов указаного таксона

Продолжаем работать с родом Apis. Составить правильный запрос - целое искусство, для этого вам может быть полезна Следующая ссылка. Запрос, находящий все полные митохондриальные геномы таксона в Refseq:
((((complete genome[Title]) OR complete sequence[Title]) AND mitochondrion[Title]) AND refseq[Filter]) AND Apis[Organism] (4 находки)
Выбрала находку https://www.ncbi.nlm.nih.gov/nuccore/NC_001566.1
AC: NC_001566; название организма - Apis mellifera ligustica (Рис. 1); в митохондрионе 24 гена РНК и 13 белков
Ссылку на таблицу генов белков закодированных в митохондриальном геноме

NGS: термины Прочтение, оно же – рид – известная последовательность Качество прочтения: Для каждого нуклеотида определяется качество p – вероятность ошибочного прочтения нуклеотида Контиг – секвенированый без пропусков фрагмент ДНК Cкэффолд – набор контигов, про который доказано, что контиги один за другим; разрывы между контигами либо заполняются буквами N в числе, равном предполагаемой длине разрыва; либо заполняются последовательностью нуклеотидов, определенных с низкой достоверностью Качества сборки Покрытие: среднее число ридов, в которые попал каждый нуклеотид N50: упорядочим контиги по длине по убыванию; найдем первый контиг такой, что он и все более длинные покрывают более половины генома; длина этого контига и есть N50 L50: посчитаем, сколько контигов покрывает половину генома; это и есть L50

Таблица 1. Размеры геномов

	Минимальный, bp	Типичный (медиана в базе данных), bp	Максимальный, bp
Вироиды	120 (Avocado sunblotch viroid isolate CF60, complete genome)	340	475 (Citrus exocortis viroid isolate D-104, complete genome)
Вирусы, бактериофаги	220 (Rice yellow mottle virus satellite, complete genome)	8300	1,299,140 (Niemeyer virus, partial genome)
Бактерии, археи	1,326(Lactobacillus casei subsp. casei ATCC 393 plasmid pLBCZ-2 DNA, complete genome)	3,400,000	16,040,666 (Minicystis rosea strain DSM 24000, complete genome)
Эукариоты	113,606 (Triticum monococcum subsp. aegilopoides, complete genome)	Типичный определить довольно сложно	895,741,386 (Ixodes scapularis, whole genome shotgun sequencing project)