Банки нуклеотидных последовательностей.

Качество сборки генома эукариотического организма

В качестве организма выбран Голый землекоп (Heterocephalus glaber). Поиском по строке

 "Heterocephalus glaber"[organism] AND 10000:1000000[contig N50] AND 20:100[coverage] 
найдено 2 записи со сборками генома: сборка генома самца (2014) и сборка генома самки (2017). Если убрать в поиске ограничения по среднему покрытию и по N50, найдутся эти же две сборки.

Таблица 1. Характеристики сборки генома самца голого землекопа (GCA_000230445.1).

общая длина сборки 2,643,978,223
среднее покрытие 90x
число контигов 273,991
число скэффолдов 39,267
N50 21,75
L50 33,794
аннотированный белков 21771
ссылка на публикацию с описанием проекта ссылка
ссылка на один из контигов в GenBank ссылка

Число аннотированных белков не было указано на странице сборки, поэтому я перешла по ссылке BioProject и взяла число из строки Protein Sequences.

Замечание. В таблице параметры N50 и L50 указаны для контигов, хотя аналогичные параметры могут быть определены и для скэффолдов.

Cемь ключей, используемых в таблицах особенностей.

На главной странице сайта http://www.insdc.org в самом низу есть ссылка на файл под названием "The INSDC Feature Table Definition Document" В нём в разделе "Appendix II: Feature keys reference" можно найти описания всех ключей с пояснениями и примерами.Интересно, что этот документ был обновлен недавно (в декабре, сейчас февраль) и, видимо, обновляется регулярно. Соблюдение формата FeatureTable выжно для регулярного автоматического обмена данными между тремя базами данных - EMBL, GenBank, DDBJ.

Наряду с Mandatory qualifiers (полями, которые должны быть обязательно указаны в этом ключе,у многих ключей таких полей нет), у ключа могут быть Optional qualifiers (необязательные поля-"описыватели"), часто их довольно много, их смысл также описан в этом документе.

Вот некоторые ключи с описаниями и примерами:

CDS расшифровывается как coding sequence; координаты приводятся вместе со стоп-кодоном. Кроме координат, может указываться название продукта, функция и т.д.

CDS             1..402
                /gene="TCR1A"
                /product="T-cell receptor alpha chain" 

C_region, J_segment, V_region указывают на соответствущие участки Т-клеточного рецептора

V_region        55..327
                /gene="TCR1A"
J_segment       328..393
                /gene="TCR1A"
C_region        394..399
                /gene="TCR1A" 

regulatory указывает на участок последовательности, имеющий регуляторную функцию, что именно он регулирует (транскрипцию/трансляцию/репликацию/упаковку хроматина) можно по обязательному полю /regulatory_class.

regulatory      179..184
                /operon="gal" 
        	/regulatory_class="minus_10_signal" 

misc_feature указывает "некоторые особенности, интересные с биологической точки зрения, которые нельзя отнести к какому-либо еще ключу" часто встречается в записях, к сожалению.

     misc_feature    1483..1517
                     /note="AT-rich region" 

misc_binding указывает на сайт в нуклеиновой кислоте, который с чем-то как-то взаимодействует, это ключ для указания взаимодействий, которые не подходят под более конкретные ключи, такие как primer_bind или protein_bind.

     misc_binding    1426..1434
                     /note="DnaA box"
                     /bound_moiety="DnaA" 

STS указывает на хорошо узнаваемый (хорошо картирующийся?) короткий участок, который может, например, быть узнан праймерами для PCR.

     STS             131..520
                     /gene="Nppa"
                     /gene_synonym="ANF; ANP; Pnd; RATANF"
                     /standard_name="PMC316718P1"
                     /db_xref="UniSTS:273041"  

Ключей очень много (в этом документе описано больше 70). К счастью, смысл многих ключей интуитивно понятен: exon, operon, intron, tRNA, ncRNA, ...

The Human Microbiome Project (HMP, проект по изучению человеческого микробиома).

Как и многие другие масштабные геномные проекты, этот проект был начат в 2008, после резкого снижения цен (и временных затрат) на секвенирование в связи с распространением NGS. Основная цель первого этапа проекта - изучение микроорганизмов, живущих в симбиозе с человеком, методами полногеномного секвенирования и метагеномики, позволяющими изучать бактерий без их культивирования по-отдельности. Было описаны бактериальные сообщества, относящиеся к пяти участкам тела, исследование проводилось на 300 здоровых добровольцах, всего было взято 11000 проб, в результате 2200 референсных последовательностей были получены. Среди целей проекта также было изуение связи между составом бактериального сообщества и состоянием здоровья их хозяина и усовершенствование методов компьютерного анализа. Проект был успешно завершен в 2013.

Сейчас продолжается вторая часть проекта. iHMP, Integrative Human Microbiome Project, объединяет три основных направления исследованй. Первая группа связана с изучением изменения микробиома в течение беременности. Вторая группа занимается воспалительными заболеваниями кишечника, связанными с микробиомом. Трертья группа - связью между составом микробиомаи и развитием сахарного диабета II типа.

Проект проводится национальными институтами здравоохранения США (NIH), базируется на 4 исследовательских центрах. Вся полученная в первой половине проекта информация выложена в открытый доступ. Почитать про этот проект можно, например, на его официальном сайте официальном сайте .

Таблица митохондриальных генов.

Мне достался таксон (Цветковые), для поиска митохондриальных генов я выбрала Яблоню домашнюю (Malus domestica).

Поиск производился в NCBI Nucleotide по запросу

(("biomol genomic"[Properties]) AND "mitochondrion") AND "malus domestica"
Поиск выдал 13 результатов, среди них только первые 7 относились к выбранному организму и только одна запись содержала кольцевую последовательность. Эта запись и была выбрана: "Malus x domestica mitochondrion, complete genome. NCBI Reference Sequence: NC_018554.1".

Запись была скачена в формате GenBank (на странице записи выбираем Send to > file). Дальше из этой записи нужно было выделить сначала поля с ключом CDS, потом из этих полей - всю нужную информацию. Я делала это питоном, но думаю, что лучше было бы делать вручную, тем более что белков в митохондриальном геноме яблони всего 33. форма записи на протяжении файла формата .gb варьирует: поля записаны в разном порядке, часто поля /gene нет и его нужно смотреть в ключе gene (а не внутри ключа CDS), нет стандартной записи для координат (иногда функция join снаружи функции complement, иногда внутри - на результат это не влияет, но обрабатывать неудобно). В результате таблица получилась недоделанная, и я дописывала некоторые строки вручную.

Ссылка на таблицу с генами белков. Желтым выделены полные названия белков, которые не были указаны в скачанном файле с митохондриальным геномом, их я нашла в SwissProt поиском по protein_id.

Вернуться на страницу семестра

Вернуться на главную


© potapenko 2017-2018