Нуклеотидные банки данных

Задание 1

В качестве примера эукариотического организма был выбран Manacus vitellinus — золотистый короткокрылый манакин.

Рис. 1. Manacus vitellinus

На данный момент существует две сборки генома и 4 проекта по секвенированию единственного образца SAMN02299332.

Для рассмотрения была выбрана сборка GCA_000692015.2 (genbank accession).

Характеристика использованного для сборки образца

Идентификатор образца: SAMN02299332 | Название образца: BGI_N305 | SRA (Seqquence Read Archive): SRS466478

Вид организма: Manacus vitellinus

Таксономическое положение:

Eukaryotes (надцарство Эукариоты)
- Metazoa (царство Животные)
  - Chordata (тип Хордовые)
    - Craniata (п/тип Позвоночные)
      - Aves (класс Птицы)
        
        Neognathae (н/отряд Новонёбные)
        
        Passeriformes (отряд Воробьинообразные)
        
        Pipridae (семейство Манакиновые)
        
        Manacus (род Манакин)
        
        Manacus vitellinus (вид Золотистый короткокрылый манакин)

Особенности: образец BGI_N305 выделен в Панаме из самки Manacus vitellinus.

Перечень проектов, использующих образец:

PRJNA341382
PRJNA335611
PRJNA253835
PRJNA212872

Предоставлен: 2 августа 2013 года BGI (Beijing Genomics Institute)

Характеристика проекта по секвенированию

Идентификатор проекта: PRJNA212872
Тип проекта: сборка и секвенирование генома
Выполнен: BGI (Beijing Genomics Institute)
Зарегистрирован: 13.05.2014
Актуальность: применительно к эволюции
RefSeq проект: PRJNA253835

Характеристика сборки GCA_000692015.2

Идентификатор сборки: GCA_000692015.2 (GenBank) | WGS-проект: JMFM02000000
Полная длина последовательности: 1 145 854 002
Суммарная длина гэпов сборки: 29 843 881
Гэпы между скэффолдами: 0
Общее число N50 L50

Контиги 138 155 43 697 6 945

Скэффолды 92 755 2 558 866 124
Таблица контигов: в формате [xlsx] доступна для скачивания
Самый длинный контиг: JMFM02021993 имеет длину 468443
Самый короткий контиг: 249 контигов имеют длину 200
Последовательность контига: для JMFM02000023 в формате [FASTA] доступна для скачивания
Таблица скэффолдов: в формате [xlsx] доступна для скачивания
Самый длинный скэффолд: scaffold11 имеет длину 12468512
Самый короткий скэффолд: 244 штуки имеют длину 200

Задание 2

GenBank, EMBL и DDBJ разработали общие стандарты^[1] для формата аннтоаций. Ключевой задачей Feature Tables, так называемых таблиц особенностей, помимо непосредственно предоставляемого описания, является также возможность быстрого и удобного оперирования данными.

Спектр особенностей, описываемых в этих таблицах, очень широк и включает участки, которые:

связаны с выполнением биологических функций;
связываются с другими молекулами;
связаны с репликацией последовательности;
являются продуктом рекомбинации различных последовательностей;
являются узнаваемыми повторяющимися единицами;
обладают вторичной или третичной структурой;
вариабельны или были пересмотрены и изменены.

Общий синтаксис таблиц особенностей:

	Key             Location/Qualifiers
	CDS             23..400
	                /product="alcohol dehydrogenase" 
	                /gene="adhI"

Key — ключ;
Location — расположение в последовательности;
Qualifiers — классификаторы с конкретными дополнительными деталями (для каждого ключа — свои, причём имеются как обязательные, так и необязательные).

Задание заключалось в описании десяти выбранных ключей, используемых в таблицах особенностей.

Описание ключа в документации INSDC может включает в себя такие особенности, как:

обязательные (mandatory qualifiers) и дополнительные (optional qualifiers) классификаторы;
те организмы, у которых этот ключ может присутствовать в аннотации последовательности (organism scope);
те молекулы, в последовательности которых может быть данный ключ (molecule scope);
ссылки на цитирования и исследования
комментарий с пояснениями

Таблица 1. Описание ключей таблиц особенностей

Ключ	Значение	Пример

1
CDS	кодирующая последовательность	FEATURE Location/Qualifiers CDS join(544..589,688..>1032) /product="T-cell receptor beta-chain"
Объединив отрезок 544-589 и отрезок, начинающийся с 688-го нуклеотида и продолжающийся после 1032-го, получим нуклеотидную последовательность, кодирующую бета-цепь белка рецептора Т-клетки.

2
rep_origin	ориджин репликации	FEATURE Location/Qualifiers rep_origin 3617..3892 /standard_name="ori1" /experiment="experimental evidence, no additional details recorded" /citation=[2]
Квалификатор /standard_name встречается часто с различными ключами и используется для записи общепринятых стандартных названий. Квалификатор /experiment вкратце отражает суть эксперимента, подтверждающего наличие особенности. /citation — цитирование. Список References приводится в начале аннотации.

3
sig_peptide	кодирующая последовательность сигнального пептида	FEATURE Location/Qualifiers sig_peptide 9146..9226 /locus_tag="L2_14" /note="putative"
Квалификатор /note позволяет прокомментировать особенность. В нашем случае, например, сообщается о том, что наличие указанной особенности лишь предполагается.

4
assembly_gap	гэп между двумя компонентами сборки генома	FEATURE Location/Qualifiers assembly_gap 1813..4923 /estimated_length=3111 /gap_type="within scaffold" /linkage_evidence="unspecified"
В отличие от предыдущих случаев, все три квалификатора являются для данного ключа обязательными. /estimated length — длина гэпа; /gap_type — тип гэпа (например: внутри скэффолда / вне скэффолда и другие); /linkage_evidence — тип свидетельства, подтверждающего наличие связи в гэпе сборки (например: "pcr", "paired-ends" и другие). В нашем случае такого свидетельства нет.

5
source	биологический источник образца	FEATURES Location/Qualifiers source 1..574052 /organism="Cynoglossus semilaevis" /mol_type="genomic DNA" /isolate="Cse_v1.0" /db_xref="taxon:244447" /chromosome="6" /tissue_type="blood" /country="China" /collection_date="Sep-2009"
Ключ source является обязательным. Их может быть несколько, но тогда объединение их locations покрывает всю последовательность. В классификаторах этого ключа содержится разнообразная информация о том откуда, где, когда и как был получен образец.

6
D-loop	D-петля; область митохондриальной ДНК, в которой короткий участок РНК спарен с одной цепью ДНК, как бы замещая в этом месте вторую цепь	FEATURES Location/Qualifiers D-loop 15784..16659 /note="control region"
Ключ также используется для описания смещения участка одной из цепей дуплексной ДНК какой-либо одноцепочечной молекулой в реакции, катализируемой белком RecA.

7
misc_recomb	участки, добавленные в геном или выпавшие из него вследствие рекомбинации	FEATURES Location/Qualifiers misc_recomb 5083..5084 /locus_tag="lambdap70" /gene="NinI"
Учитываются сайты общей, сайтоспецифичной и репликативной рекомбинации.

8
variation	полиморфизм	FEATURES Location/Qualifiers variation 467 /locus_tag="lambdap89" /replace="t" /gene="O" /note="t in ric5b; c in wild-type"
Полиморфизм как однонуклеотидный, так и длин рестрикционных фрагментов (RFLP). Если задать классификатор /replace="", это будет означать делецию. В общем случае это замена нуклеотида.

9
repeat_region	участок генома, содержащий повторы	FEATURES Location/Qualifiers repeat_region 80..401 /rpt_type=DISPERSED
Для /rpt_type есть большое количество возможных значений, характеризующих структуру и распределение повторов.

10
stem_loop	шпилька или стебель	FEATURES Location/Qualifiers stem_loop join(978..988,1..17)
Location задаётся через объединение двух участков цепи, которые образуют стебель.

Задание 3

Для того чтобы исследовать генетические механизмы, влияющие на развитие эпилепсии у большинства людей, в 2010 году при финансировании от NINHS (National Institute of Neurological Disorders and Stroke) был создан так называемый "Center without Walls" и запланировано исследование Epi4K, имевшее своей целью отсеквенировать и проанализировать геномы и фенотипы 4000 больных людей^[3].

В команде проекта участвовало более 60 учёных с трёх континентов (Северная Америка, Евразия, Австралия).

К маю 2013 года в исследованиях приняли участие 4199 людей. Цель достигнута. Но исследования в указанной области всё ещё продолжаются.

Сайт проекта доступен по ссылке

Ссылка на последнюю публикацию: здесь

Задание 4

Для таксона Rhodophyta были составлены^[2] запросы в NCBI, по которым находятся все полные митохондриальные геномы (83 штуки) в GenBank и RefSeq соответственно:

(rhodophyta[ORGN] AND mitochondrion[TITLE] AND ("complete genome"[TITLE] OR "complete sequence"[TITLE])) AND srcdb_genbank[PROP]
| 49 находок |
(rhodophyta[ORGN] AND mitochondrion[TITLE] AND ("complete genome"[TITLE] OR "complete sequence"[TITLE])) AND srcdb_refseq[PROP]
| 34 находки |

В качестве представителя был выбран Chondrus crispus (см. Рис. 2), также известный как "ирландский мох". Из этой водоросли выделяется каррагинан, который в течение сотен лет используется в качестве пищевой добавки. По сути это альтернатива желатина растительного происхождения.

Рис. 2. Chondrus crispus

Для Chondrus crispus имеется полный митохондриальный геном, accession number в RefSeq NC_001677.

Рис. 3. Митохондриальный геном

Таблица генов митохондриального генома этого организма в формате [xlsx] доступна для скачивания. На одном из листов приведены все гены, а на втором — только белок-кодирующие.

Задание 5

Таблица 2 содержит информацию о размерах геномов по разным таксонам.

Таблица 2

Файл [xlsx], в котором содержатся расчёты, доступен по ссылке.

[1] INSDC Documentation
[2] Fields available for all Sequence Databases
[3] Gene discovery in 4,000 genomes

	Общее число	N50	L50
Контиги	138 155	43 697	6 945
Скэффолды	92 755	2 558 866	124