УЧЕБНЫЙ САЙТ
Буяновой Мишель
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ
И БИОИНФОРМАТИКИ МГУ им. М.В. ЛОМОНОСОВА
Семестр IV Семестр III Семестр II Cеместр I

Нуклеотидные банки данных

Задание 1

В качестве примера эукариотического организма был выбран Manacus vitellinus — золотистый короткокрылый манакин.

Рис. 1. Manacus vitellinus

На данный момент существует две сборки генома и 4 проекта по секвенированию единственного образца SAMN02299332.

Для рассмотрения была выбрана сборка GCA_000692015.2 (genbank accession).

Характеристика использованного для сборки образца

Идентификатор образца: SAMN02299332 | Название образца: BGI_N305 | SRA (Seqquence Read Archive): SRS466478

Вид организма: Manacus vitellinus

Таксономическое положение:

  • Eukaryotes (надцарство Эукариоты)
    • Metazoa (царство Животные)
      • Chordata (тип Хордовые)
        • Craniata (п/тип Позвоночные)
          • Aves (класс Птицы)
            • Neognathae (н/отряд Новонёбные)
              • Passeriformes (отряд Воробьинообразные)
                • Pipridae (семейство Манакиновые)
                  • Manacus (род Манакин)
                    • Manacus vitellinus (вид Золотистый короткокрылый манакин)

Особенности: образец BGI_N305 выделен в Панаме из самки Manacus vitellinus.

Перечень проектов, использующих образец:

  • PRJNA341382
  • PRJNA335611
  • PRJNA253835
  • PRJNA212872

Предоставлен: 2 августа 2013 года BGI (Beijing Genomics Institute)

Характеристика проекта по секвенированию

  • Идентификатор проекта: PRJNA212872
  • Тип проекта: сборка и секвенирование генома
  • Выполнен: BGI (Beijing Genomics Institute)
  • Зарегистрирован: 13.05.2014
  • Актуальность: применительно к эволюции
  • RefSeq проект: PRJNA253835

Характеристика сборки GCA_000692015.2

  • Идентификатор сборки: GCA_000692015.2 (GenBank) | WGS-проект: JMFM02000000
  • Полная длина последовательности: 1 145 854 002
  • Суммарная длина гэпов сборки: 29 843 881
  • Гэпы между скэффолдами: 0
  • Общее числоN50L50
    Контиги138 15543 6976 945
    Скэффолды92 7552 558 866124
  • Таблица контигов: в формате [xlsx] доступна для скачивания
  • Самый длинный контиг: JMFM02021993 имеет длину 468443
  • Самый короткий контиг: 249 контигов имеют длину 200
  • Последовательность контига: для JMFM02000023 в формате [FASTA] доступна для скачивания
  • Таблица скэффолдов: в формате [xlsx] доступна для скачивания
  • Самый длинный скэффолд: scaffold11 имеет длину 12468512
  • Самый короткий скэффолд: 244 штуки имеют длину 200

Задание 2

GenBank, EMBL и DDBJ разработали общие стандарты[1] для формата аннтоаций. Ключевой задачей Feature Tables, так называемых таблиц особенностей, помимо непосредственно предоставляемого описания, является также возможность быстрого и удобного оперирования данными.

Спектр особенностей, описываемых в этих таблицах, очень широк и включает участки, которые:

  • связаны с выполнением биологических функций;
  • связываются с другими молекулами;
  • связаны с репликацией последовательности;
  • являются продуктом рекомбинации различных последовательностей;
  • являются узнаваемыми повторяющимися единицами;
  • обладают вторичной или третичной структурой;
  • вариабельны или были пересмотрены и изменены.

Общий синтаксис таблиц особенностей:

	Key             Location/Qualifiers
	CDS             23..400
	                /product="alcohol dehydrogenase" 
	                /gene="adhI"

Key — ключ;
Location — расположение в последовательности;
Qualifiers — классификаторы с конкретными дополнительными деталями (для каждого ключа — свои, причём имеются как обязательные, так и необязательные).

Задание заключалось в описании десяти выбранных ключей, используемых в таблицах особенностей.

Описание ключа в документации INSDC может включает в себя такие особенности, как:

  • обязательные (mandatory qualifiers) и дополнительные (optional qualifiers) классификаторы;
  • те организмы, у которых этот ключ может присутствовать в аннотации последовательности (organism scope);
  • те молекулы, в последовательности которых может быть данный ключ (molecule scope);
  • ссылки на цитирования и исследования
  • комментарий с пояснениями
Таблица 1. Описание ключей таблиц особенностей
Ключ Значение Пример
1
CDS кодирующая последовательность
FEATURE         Location/Qualifiers
CDS             join(544..589,688..>1032)
                /product="T-cell receptor beta-chain"
Объединив отрезок 544-589 и отрезок, начинающийся с 688-го нуклеотида и продолжающийся после 1032-го, получим нуклеотидную последовательность, кодирующую бета-цепь белка рецептора Т-клетки.
2
rep_origin ориджин репликации
FEATURE         Location/Qualifiers
rep_origin      3617..3892
                /standard_name="ori1"
                /experiment="experimental evidence, no additional 
		details recorded"
                /citation=[2]
Квалификатор /standard_name встречается часто с различными ключами и используется для записи общепринятых стандартных названий.
Квалификатор /experiment вкратце отражает суть эксперимента, подтверждающего наличие особенности.
/citation — цитирование. Список References приводится в начале аннотации.
3
sig_peptide кодирующая последовательность сигнального пептида
FEATURE         Location/Qualifiers
sig_peptide     9146..9226
                /locus_tag="L2_14"
                /note="putative"
Квалификатор /note позволяет прокомментировать особенность. В нашем случае, например, сообщается о том, что наличие указанной особенности лишь предполагается.
4
assembly_gap гэп между двумя компонентами сборки генома
FEATURE         Location/Qualifiers
assembly_gap    1813..4923
                /estimated_length=3111
                /gap_type="within scaffold"
                /linkage_evidence="unspecified"
В отличие от предыдущих случаев, все три квалификатора являются для данного ключа обязательными.
/estimated length — длина гэпа; /gap_type — тип гэпа (например: внутри скэффолда / вне скэффолда и другие); /linkage_evidence — тип свидетельства, подтверждающего наличие связи в гэпе сборки (например: "pcr", "paired-ends" и другие). В нашем случае такого свидетельства нет.
5
source биологический источник образца
FEATURES        Location/Qualifiers
source          1..574052
                /organism="Cynoglossus semilaevis"
                /mol_type="genomic DNA"
                /isolate="Cse_v1.0"
                /db_xref="taxon:244447"
                /chromosome="6"
                /tissue_type="blood"
                /country="China"
                /collection_date="Sep-2009"
Ключ source является обязательным. Их может быть несколько, но тогда объединение их locations покрывает всю последовательность.
В классификаторах этого ключа содержится разнообразная информация о том откуда, где, когда и как был получен образец.
6
D-loop D-петля;
область митохондриальной ДНК, в которой короткий участок РНК спарен с одной цепью ДНК, как бы замещая в этом месте вторую цепь
FEATURES        Location/Qualifiers
D-loop          15784..16659
                /note="control region"
Ключ также используется для описания смещения участка одной из цепей дуплексной ДНК какой-либо одноцепочечной молекулой в реакции, катализируемой белком RecA.
7
misc_recomb участки, добавленные в геном или выпавшие из него вследствие рекомбинации
FEATURES        Location/Qualifiers
misc_recomb     5083..5084
                /locus_tag="lambdap70"
                /gene="NinI"
Учитываются сайты общей, сайтоспецифичной и репликативной рекомбинации.
8
variation полиморфизм
FEATURES        Location/Qualifiers
variation       467
                /locus_tag="lambdap89"
                /replace="t"
                /gene="O"
                /note="t in ric5b; c in wild-type"
Полиморфизм как однонуклеотидный, так и длин рестрикционных фрагментов (RFLP).
Если задать классификатор /replace="", это будет означать делецию. В общем случае это замена нуклеотида.
9
repeat_region участок генома, содержащий повторы
FEATURES        Location/Qualifiers
repeat_region   80..401
                /rpt_type=DISPERSED
Для /rpt_type есть большое количество возможных значений, характеризующих структуру и распределение повторов.
10
stem_loop шпилька или стебель
FEATURES        Location/Qualifiers
stem_loop       join(978..988,1..17)
Location задаётся через объединение двух участков цепи, которые образуют стебель.

Задание 3


Для того чтобы исследовать генетические механизмы, влияющие на развитие эпилепсии у большинства людей, в 2010 году при финансировании от NINHS (National Institute of Neurological Disorders and Stroke) был создан так называемый "Center without Walls" и запланировано исследование Epi4K, имевшее своей целью отсеквенировать и проанализировать геномы и фенотипы 4000 больных людей[3].

В команде проекта участвовало более 60 учёных с трёх континентов (Северная Америка, Евразия, Австралия).

К маю 2013 года в исследованиях приняли участие 4199 людей. Цель достигнута. Но исследования в указанной области всё ещё продолжаются.

Сайт проекта доступен по ссылке

Ссылка на последнюю публикацию: здесь

Задание 4

Для таксона Rhodophyta были составлены[2] запросы в NCBI, по которым находятся все полные митохондриальные геномы (83 штуки) в GenBank и RefSeq соответственно:

  • (rhodophyta[ORGN] AND mitochondrion[TITLE] AND ("complete genome"[TITLE] OR "complete sequence"[TITLE])) AND srcdb_genbank[PROP]
    | 49 находок |

  • (rhodophyta[ORGN] AND mitochondrion[TITLE] AND ("complete genome"[TITLE] OR "complete sequence"[TITLE])) AND srcdb_refseq[PROP]
    | 34 находки |

В качестве представителя был выбран Chondrus crispus (см. Рис. 2), также известный как "ирландский мох". Из этой водоросли выделяется каррагинан, который в течение сотен лет используется в качестве пищевой добавки. По сути это альтернатива желатина растительного происхождения.

Рис. 2. Chondrus crispus

Для Chondrus crispus имеется полный митохондриальный геном, accession number в RefSeq NC_001677.

Рис. 3. Митохондриальный геном

Таблица генов митохондриального генома этого организма в формате [xlsx] доступна для скачивания. На одном из листов приведены все гены, а на втором — только белок-кодирующие.

Задание 5

Таблица 2 содержит информацию о размерах геномов по разным таксонам.

Таблица 2

Файл [xlsx], в котором содержатся расчёты, доступен по ссылке.


[1] INSDC Documentation
[2] Fields available for all Sequence Databases
[3] Gene discovery in 4,000 genomes