В качестве организма выбран Голый землекоп (Heterocephalus glaber). Поиском по строке
"Heterocephalus glaber"[organism] AND 10000:1000000[contig N50] AND 20:100[coverage]найдено 2 записи со сборками генома: сборка генома самца (2014) и сборка генома самки (2017). Если убрать в поиске ограничения по среднему покрытию и по N50, найдутся эти же две сборки.
Таблица 1. Характеристики сборки генома самца голого землекопа (GCA_000230445.1).
общая длина сборки | 2,643,978,223 |
среднее покрытие | 90x |
число контигов | 273,991 |
число скэффолдов | 39,267 |
N50 | 21,75 |
L50 | 33,794 |
аннотированный белков | 21771 |
ссылка на публикацию с описанием проекта | ссылка |
ссылка на один из контигов в GenBank | ссылка |
Число аннотированных белков не было указано на странице сборки, поэтому я перешла по ссылке BioProject и взяла число из строки Protein Sequences.
Замечание. В таблице параметры N50 и L50 указаны для контигов, хотя аналогичные параметры могут быть определены и для скэффолдов.
На главной странице сайта http://www.insdc.org в самом низу есть ссылка на файл под названием "The INSDC Feature Table Definition Document" В нём в разделе "Appendix II: Feature keys reference" можно найти описания всех ключей с пояснениями и примерами.Интересно, что этот документ был обновлен недавно (в декабре, сейчас февраль) и, видимо, обновляется регулярно. Соблюдение формата FeatureTable выжно для регулярного автоматического обмена данными между тремя базами данных - EMBL, GenBank, DDBJ.
Наряду с Mandatory qualifiers (полями, которые должны быть обязательно указаны в этом ключе,у многих ключей таких полей нет), у ключа могут быть Optional qualifiers (необязательные поля-"описыватели"), часто их довольно много, их смысл также описан в этом документе.
Вот некоторые ключи с описаниями и примерами:
CDS расшифровывается как coding sequence; координаты приводятся вместе со стоп-кодоном. Кроме координат, может указываться название продукта, функция и т.д.
CDS 1..402 /gene="TCR1A" /product="T-cell receptor alpha chain"
C_region, J_segment, V_region указывают на соответствущие участки Т-клеточного рецептора
V_region 55..327 /gene="TCR1A" J_segment 328..393 /gene="TCR1A" C_region 394..399 /gene="TCR1A"
regulatory указывает на участок последовательности, имеющий регуляторную функцию, что именно он регулирует (транскрипцию/трансляцию/репликацию/упаковку хроматина) можно по обязательному полю /regulatory_class.
regulatory 179..184 /operon="gal" /regulatory_class="minus_10_signal"
misc_feature указывает "некоторые особенности, интересные с биологической точки зрения, которые нельзя отнести к какому-либо еще ключу" часто встречается в записях, к сожалению.
misc_feature 1483..1517 /note="AT-rich region"
misc_binding указывает на сайт в нуклеиновой кислоте, который с чем-то как-то взаимодействует, это ключ для указания взаимодействий, которые не подходят под более конкретные ключи, такие как primer_bind или protein_bind.
misc_binding 1426..1434 /note="DnaA box" /bound_moiety="DnaA"
STS указывает на хорошо узнаваемый (хорошо картирующийся?) короткий участок, который может, например, быть узнан праймерами для PCR.
STS 131..520 /gene="Nppa" /gene_synonym="ANF; ANP; Pnd; RATANF" /standard_name="PMC316718P1" /db_xref="UniSTS:273041"
Ключей очень много (в этом документе описано больше 70). К счастью, смысл многих ключей интуитивно понятен: exon, operon, intron, tRNA, ncRNA, ...
Как и многие другие масштабные геномные проекты, этот проект был начат в 2008, после резкого снижения цен (и временных затрат) на секвенирование в связи с распространением NGS. Основная цель первого этапа проекта - изучение микроорганизмов, живущих в симбиозе с человеком, методами полногеномного секвенирования и метагеномики, позволяющими изучать бактерий без их культивирования по-отдельности. Было описаны бактериальные сообщества, относящиеся к пяти участкам тела, исследование проводилось на 300 здоровых добровольцах, всего было взято 11000 проб, в результате 2200 референсных последовательностей были получены. Среди целей проекта также было изуение связи между составом бактериального сообщества и состоянием здоровья их хозяина и усовершенствование методов компьютерного анализа. Проект был успешно завершен в 2013.
Сейчас продолжается вторая часть проекта. iHMP, Integrative Human Microbiome Project, объединяет три основных направления исследованй. Первая группа связана с изучением изменения микробиома в течение беременности. Вторая группа занимается воспалительными заболеваниями кишечника, связанными с микробиомом. Трертья группа - связью между составом микробиомаи и развитием сахарного диабета II типа.
Проект проводится национальными институтами здравоохранения США (NIH), базируется на 4 исследовательских центрах. Вся полученная в первой половине проекта информация выложена в открытый доступ. Почитать про этот проект можно, например, на его официальном сайте официальном сайте .
Мне достался таксон (Цветковые), для поиска митохондриальных генов я выбрала Яблоню домашнюю (Malus domestica).
Поиск производился в NCBI Nucleotide по запросу
(("biomol genomic"[Properties]) AND "mitochondrion") AND "malus domestica"Поиск выдал 13 результатов, среди них только первые 7 относились к выбранному организму и только одна запись содержала кольцевую последовательность. Эта запись и была выбрана: "Malus x domestica mitochondrion, complete genome. NCBI Reference Sequence: NC_018554.1".
Запись была скачена в формате GenBank (на странице записи выбираем Send to > file). Дальше из этой записи нужно было выделить сначала поля с ключом CDS, потом из этих полей - всю нужную информацию. Я делала это питоном, но думаю, что лучше было бы делать вручную, тем более что белков в митохондриальном геноме яблони всего 33. форма записи на протяжении файла формата .gb варьирует: поля записаны в разном порядке, часто поля /gene нет и его нужно смотреть в ключе gene (а не внутри ключа CDS), нет стандартной записи для координат (иногда функция join снаружи функции complement, иногда внутри - на результат это не влияет, но обрабатывать неудобно). В результате таблица получилась недоделанная, и я дописывала некоторые строки вручную.
Ссылка на таблицу с генами белков. Желтым выделены полные названия белков, которые не были указаны в скачанном файле с митохондриальным геномом, их я нашла в SwissProt поиском по protein_id.
Вернуться на страницу семестра
© potapenko 2017-2018