На главную

Банки нуклеотидных последовательностей

Характеристика сборок

Для выполнения практикума мной был выбран организм Deinococcus radiodurans, интересный тем, что способен выдерживать экстремально высокие дозы радиации, за счет его способности защищать разрушенную радиацией ДНК от действия экзонуклеаз и восстанавливать геном из множества кусочков при помощи гомологичной рекомбинации (возможной не только во время деления клетки за счет многокопийности генома). Помимо экстремальной устойчивости к радиации, возникшей вероятно вследствие адаптации к существованию в засушливых условиях, эти бактерии умеют переносить вызванный высоким уровнем радиации окислительный стресс.

Название вида Deinococcus radiodurans / Дейнококк [ужасный шарик] радиоустойчивый
Число сборок генома 5
Ссылка на доступные сборки https://www.ncbi.nlm.nih.gov/genome/genomes/1020

Характеристика одной из сборок

Номер сборки ASM68789v1
Общая длина 3,240,710
Число контигов 51
Число скэффолдов 0
N50 150,793
L50 7
Число аннотированных белков 3030
Ссылка на описание причастности данной сборки к проекту Link
Ссылка на публикацию с описанием проекта Link
Ссылка на последовательность одного из контигов в RefSeq Link

На этом этапе я осознала что требовалось рассмотреть эукариотический организм, что я и делаю.

В качестве эукариотического организма мною был выбран дрожжеподобный аскомицет Wickerhamomyces ciferrii - ценный продуцент сфинголипидов, используемых в фармацевтике и косметологии.

На изображениях представлены организмы других видов из рода Wickerhamomyces, т.к. изображение конкретно моего вида найти не удалось.

Название вида Wickerhamomyces ciferrii
Число сборок генома 1

Характеристика одной из сборок

Accession сборки в RefSeq GCF_000313485.1
Имя сборки ASM31348v1
Общая длина 32,437,365
Число контигов 364
Число скэффолдов 0 (потому что уровень сборки - контиги, но если считать каждый контиг скэффолдом из одного контига, то 364)
N50 98,237
L50 50
Число аннотированных белков 6702
Ссылка на описание проекта Link
Ссылка на публикацию сделанную по черновым результатам секвенирования Link
Ссылка на последовательность одного из контигов в RefSeq Link

Описание ключей FT

mobile_element

Ключ указывает на регион, содержащий мобильный элемент (транспозоны, ретротранспозоны, неретровирусные ретротранспозоны etc.), обычно у такого мобильного элемента обязательно указан тип (например L1). Сам мобильный элемент может включать в себя CDS которые записаны после записи о самом мобильном элементе в feature table.

Link

repeat_region

Ключ указывает на регион, содержащий повторяющиеся последовательности, часто являющиеся LTR несодержащими Alu последовательностями, как например в данном случае. (и по всей видимости транспозоноподобные элементы часто описываются как повторяющиеся последовательности, так среди них можно встретить описываемый как транспозон L1)

Link

variation

Ключ указывает на позицию в последовательности и вариант нуклеотида, который может стоять на этом месте вместо того, который стоит на этом месте в последовательности и частоту с которой в популяции происходит такая замена.

Link

sig_peptide

Сигнальная последовательность на N конце белка, необходимая для распознания при помощи SRP (у эукариот) или других белков, которые позволят синтезируемому белку быть встроенному в мембрану или выведенному по другую сторону от нее. (В данном случае она необходима для транспорта аполипопротенина-В в ЭПР при помощи кострансляционного транспорта в ЭПР)

Link

3'UTR

Ключ указывает на трансрибируемый, но не транслируемый регион, находящийся на 3' конце матричной РНК (или не обязательно матричной, может быть и вирусной).

Link

STS

Короткая, но довольно редкая (единственная) последовательность в геноме, которая позволяет определить наличие или отсутствие данного участка геномной ДНК в смеси для ПЦР: подбираем праймеры к STS, ставим ПЦР, если идет, то участок генома присутствует в реакционной смеси. (накже можно таким способом поднять на ПЦР нужный участок генома для дальнейших манипуляций). Кстати, в представленном примере на данном участке STS имеется два участка для связывания праймеров, которые могут (необязательно) являться сайтами для отжигания праймеров при ПЦР.

Link

rep_origin

Место где связывается ORC (origin recognition complex) и при определенных условиях в зависимости от работы киназ регулирующих инициацию клеточного цикла происходит инициация репликации (посадка ДНК полимеразы и старт синтеза комплементарной цепочки). Дрожжи в этом плане интересны, потому что у высших эукариот, таких как человек места инициации репликации еще точно не определены, а у дрожжей с этим все в порядке. (хромосомы дрожжей были взяты в качестве иллюстрирующего примера)

Link

Описание геномного проекта

Так как раковые клетки обладают уникальным для типа рака паттерном мутаций и геномных перестроек, вполне можно рассматривать геномы раковых клеток определенного типа как единую группу. Поиск различий в транскриптомах, (по мРНК и микроРНК) а также сравнение геномов нормальных клеток и клеток с определенным типом рака может помочь лучше понять причины и механизмы развития различных типов рака. Целую группу омиксных исследований различных типов рака возглавляет Office of Cancer Genomics (центр раковой геномики), который является частью National Cancer Institute (американский институт рака) (который в свою очередь является частью National Institutes of Health (NIH) - американской научно-исследовательской организации). Эта группа исследований носит название Cancer Genome Characterization Initiative (CGCI) и в нее входит несколько крупных проектов по секвенированию геномов (и не только) различных типов рака. Список проектов можно посмотреть здесь. Разные омиксные технологии используемые для изучения рака здесь. Стандартные этапы, через которые проходит каждый проект прежде чем считаться завершенным здесь

Таблица состояния разных геномных проектов CCGI

На сайте проекта также есть таблица, позволяющая получить ссылки на все данные имеющиеся к настоящему моменту по каждому из геномных проектов. Несмотря на название "геномный", судя по всему полных сборок генома в таких проектах не проводится и все данные по секвенированию геномной ДНК существуют в формате SRA (sequence read archive). Поэтому придется описать другой геномный проект.

Описание геномного проекта v2

Для повторного описания был выбран геномный проект 100 тысяч геномов пищевых патогенов - 100K Food Pathogen Project. Этот проект был начат в 2013 году с целью увеличить количество данных о мнгообразии геномов пищевых патогенов, так как в последнее время вызываемые ими вспышки заболеваний стали достаточно частыми. Этот проект создан чтобы улучшить качество мониторинга и ранней предупредительной диагностики для заболеваний вызванных пищевыми патогенами. Больше о проекте можно узнать на его главной странице. основными организациями, участвующими в реализации проекта являются UC Davis, CDC, FDA, Agilent Technologies etc. В ходе проекта планируется секвенировать 100,000 геномов пищевых патогенов, дата завершения проекта неизвестна, на настоящее время опубликовано 2080 сборок геномов в RefSeq из которых 1593 имеют сборку на уровне контигов, 474 на уровне скэффолдов и 13 собраны как полные геномы. Из них 2077 были собраны к концу 2017 года. Геномный проект имеет accession PRJNA186441 и данные по этому проекту доступны на сайте NCBI. Последняя публикация по проекту.

Митохондриальный геном Acrogymnospermae

Поиск был осуществлен по нуклеотидной базе данных ENA со следующим текстом запроса:

mol_type="genomic DNA" AND topology="CIRCULAR" AND organelle="mitochondrion" AND dataclass="STD" AND tax_tree(1437180)

Было найдено 3 находки в release и 1 в update

Для дальнейшего рассмотрения был выбран митохондриальный геном Ginkgo biloba или Гинкго двулопастный, имеющий AC KM672373.

Далее была скачана запись о последовательности в формате TEXT и обработана при помощи Python . Результатом обработки стала следующая таблица генов митохондриальных белков . Интересно, что у данного организма некоторые пре-мРНК, закодированнные в митохондриальном геноме подвергаются транс сплайсингу (координата для сортировки как и у остальных генов бралась наименьшая из возможных).


© Кристина Перевощикова, 2017