Базы данных нуклеотидных послеовательностей

Качество сборки генома Серой крысы (Rattus norvegicus)

Серая крыса (англ. Norway rat) -- это не только вредитель и переносчик опасных заболеваний, но и важный модельный организм. Крысы служат экспериментальной моделью для изучения высшей нервной деятельности, психологии. Также на них изучают болезни человека, например, артрит, гипертонию, диабет, сердечно-сосудистые заболевания.

В базе данных Genome NCBI используем поиск по организму. Для Rattus norvegicus есть 7 сборок генома, 7 проектов по секвенированию организма и 7 образцов. [1]

Рассмотрим наиболее полную сборку -- первую в списке.

Информация о проекте:
Сборка The Brown Norway rat RGSC v3.1, охватывающая более 90% генома серой крысы, предоставлена Консорциумом по секвенированию генома крысы -- Rat Genome Sequencing Consortium (RGSC). Сборка была получена комбинированием (WGS) Whole Genome Shotgun подхода, использованного для генома мыши и иерархического подхода (клонирования с помощью искусственных бактериальных хромосом), использованного для генома человека. [2]

Информация об образце:
Этот образец представляет собой комбинацию двух индивидуальных биообразцов: SAMN02808218 и SAMN02808227. Rnor 6.0. включает две женские особи линии BN/SsNHsdMCW и одну мужскую особь линии SHR (также известной как SHR-Akr). [3]

Другая информация о данной сборке собрана в таблице 1.

Таблица 1. Информация о сборке GCA_000001895.4 [4]
BIOSAMPLE ID [5] SAMN02808228
BIOPROJECT [6] PRJNA10629
Общая статистика [7]
Общая длина последовательности 2,870,184,193
Общее количество хромосом и плазмид 23
Информация о скэффолдах
Количество скэффолдов 1,395
N50 14,986,627
L50 65
Информация о контигах
Количество контигов 75,697
N50 100,461
L50 7,356
Самый длинный контиг AABR07059913 2082903 bp
Самый короткий контиг AABR07072481 23 bp

Информацию о самом коротком и самом длинном контиге мы получили, скачав таблицу контигов отсюда.
Таблица контигов в формате .tsv
Таблица В виде файла Excel с сортировкой по убыванию.

В колонке "View" таблицы контигов есть ссылки на записи в GenBank, а также на последовательности контигов. Например, для контига AABR07000005:

Ключи, используемые в таблицах особенностей.

Подробное описание ключей из таблицы особенностей, которое легко найти, есть на сайте INSDC. Также там есть примеры аннотаций последовательностей. Разберем пример аннотации эукариотического гена.

source          1..1509
                /organism="Mus musculus"
                /strain="CD1"
                /mol_type="genomic DNA"
regulatory      <1..9
                /gene="ubc42"
                /regulatory_class="promoter"
mRNA            join(10..567,789..1320)
                /gene="ubc42"
CDS             join(54..567,789..1254)
                /gene="ubc42"
                /product="ubiquitin conjugating enzyme"
                /function="cell division control"
                /translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY
                QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS
                AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE"
exon            10..567
                /gene="ubc42"
                /number=1
intron          568..788
                /gene="ubc42"
                /number=1
exon            789..1320
                /gene="ubc42"
                /number=2
regulatory      1310..1317
                /regulatory_class="polyA_signal_sequence"
                /gene="ubc42"


	
source
Обязательный ключ, который идентифицирует биологический источник данной последовательности
regulatory
Любой участок последовательности, выполняющий функцию регуляции транскрипции, трансляции, репликации или структуры хроматина
mRNA
мРНК
CDS
Кодирующая последовательность -- последовательность нуклеотидов, которой соответствует последовательность аминокислот в белке.
exon
Участок последовательности, который кодирует часть сплайсируемой мРНК, тРНК, рРНК. Может содержать 5'UTR (нетранслируемую область), кодирующую последовательность и 3'UTR.
intron
Часть ДНК,которая транскрибируется, но удаляется в процессе сплайсинга.
Другие ключи
repeat_region
Участок генома, содержащий повторяющиеся фрагменты
repeat_region   80..401
                /rpt_type=DISPERSED
                /rpt_family="Alu-J"		
		
rep_origin
Сайт начала репликации ДНК
source          1..2245
                /organism="Escherichia coli"
                /plasmid="Plasmid XYZ"
                /strain="K12"
                /mol_type="genomic DNA"
rep_origin      6
                /direction=LEFT
                /note="ori"
polyA_site
РНК-транскрипт, к которому будут добавлены остатки аденина в ходе посттранскрипционного полиаденилирования.
source          1..985
                     /organism="Homo sapiens"
                     /mol_type="mRNA"
                     /db_xref="taxon:9606"
                     /clone="mig-3"
                     /cell_line="WI-38"
                     /cell_type="fibroblast"
     polyA_site      983
ncRNA
Не кодирующий белок участок, с которого транскрибируется РНК, но не рибосомальная и не транспортная. a non-protein-coding gene, other than ribosomal RNA and transfer RNA, the functional molecule of which is the RNA transcript;
 gene            26533..26635
                     /gene="scr"
                     /locus_tag="BSU6051_0018010"
     ncRNA           26533..26635
                     /ncRNA_class="SRP_RNA"
                     /gene="scr"
                     /locus_tag="BSU6051_0018010"
                     /product="small cytoplasmic RNA, signal recognition
                     particle-like (SRP) component Scr"
operon
region containing polycistronic transcript including a cluster of genes that are under the control of the same regulatory sequences/promoter and in the same biological pathway Оперон -- область, содержащая полицистронный транскрипт, включающий в себя кластер генов, которые находятся под контролем одной регуляторной последовательности / промотора и участвуют в одном биологическом пути/процессе. Характерна для прокариот.
source          1..9430
                /organism="Lactococcus sp."
                /strain="MG1234"
                /mol_type="genomic DNA"
operon          160..6865
                /operon="gal"
regulatory      160..165
                /operon="gal"
	        /regulatory_class="minus_35_signal"
		

Геномные проекты.

Проект 100 000 геномов человека

В рамках проекта 100 000 геномов, реализуемого в Великобритании, секвенируют 100 000 геномов 70 000 человек. Участники -- пациенты с редкими заболеваниями и их близкие родственники и онкологические больные.

Цель проекта -- создание нового сервиса для геномной медицины, который изменит подход к диагностике и лечению болезней. Проект также сделает возможным новые медицинские исследования. Используя данные секвенирования и данные из медицинских карт исследователи смогут изучить, как правильно использовать геномику в здравоохранении и как правильно интерпретировать данные для помощи пациентам. Будут исследованы причины, диагностика и лечение болезней. В настоящее время данный проект -- самый масштабный проект такого рода

Проект был запущен в конце 2012 года.
Дата окончания -- конец 2017 года.
На данный момент секвенировано 16171 геномов.

Цифру в 100 000 геномов выбрали, основываясь на опыте предыдущих исследований, например программы UK10K . Стоимость секвенирования снижается, а объем знаний о редких аллелях растет. Было решено, что 100 000 геномов обеспечат баланс между ценой и пользой для пациентов, чтобы создать клиническое и исследовательское наследие.

Будут секвенированы геномы 70 000 людей.
У 25 000 онкобольных для сравнения будут секвенированы геномы здоровых и больных клеток, т.е. всего 50 000 геномов. На каждого из 15 000 пациентов с редким заболеванием будет приходиться по 3 генома -- собственно геном пациента и геномы двух его близких кровных родственников.

Участники проекта получают возможность узнать свой диагноз и получить необходимое специальное лечение.

Немного инфографики с сайта проекта. Впечатляет, что объем данных составит 21 петабайт -- 10 в 15 степени байт.

Другую информацию о проекте можно узнать на сайте проекта.

Таблица митохондриальных генов

Нужно составить таблицу митохондриальных генов одного из организмов отдела Rhodophyta [1] . Я выбрала организм Rhodymenia pseudopalmata [2] . Для того чтобы найти все полные митохондриальные геномы таксона, составила запрос:
(complete mitochondrion genome) AND Rhodophyta[Organism] [3]

Найдена 71 запись в GenBank и 47 RefSeq – всего 118 записей. Переходим по ссылке "полный митохондрильный геном Rhodymenia pseudopalmata "[4]. Для получения списка митохондриальных генов я перешла по ссылке Gene в разделе Related information. Cортировала список по порядку генов в геноме (Sort by Chromosome). Чтобы получить гены, кодирующие белки можно перейти по ссылке Protein [5]. Найдено 24 белка. На сайте можно скачать таблицу. Привели данную таблицу к требуемому виду.

Таблица
Список белков