В задании необходимо было выбрать эукариотический организм и охарактеризовать качество сборки его генома, используя базу данных NCBI Genome и выполняя поиск по организму (Genome > Browse by organism). Для оценки качества сборки я выбрала Chinese hamster (Cricetulus griseus).
|
В дикой природе китайский хомячок обитает в пустынях Северного Китая и Монголии. Взрослые особи
вырастают до 82-127 мм (длина хвоста 20-33 мм) и весят до 30-45 г. Средняя продолжительность жизни
у китайского хомячка составляет 2-3 года.
В прошлом китайские хомячки часто использовались в качестве лабораторных животных, но были вытеснены
домовой мышью (Mus musculus) и серой крысой (Rattus norvegicus), которых легче содержать
и разводить в лабораторных условиях. Тем не менее, для разработки и изготовления многих
биотехнологических препаратов до сих пор используется культура клеток яичника китайского хомячка.
Часто в клетки такой культуры вносят ген интересующего белка для его получения в нужном количестве.[1]
Из культуры клеток яичника китайского хомячка изготавливают Rebif(интерферон бета-1a) — препарат
для патогенетического лечения рассеянного склероза.[2]
Для данного организма пока есть три сборки генома - GCA_000223135.1 (CriGri_1.0),
GCA_000419365.1 (C_griseus_v1.0), GCA_000448345.1 (Cgr1.0).
Зарегистрировано 3 проекта по секвенированию генома: PRJNA69991, PRJNA189319, PRJNA167053.
Сводную информацию по проектам можно найти в таблице ниже. |
Проекты
| PRJNA69991 | PRJNA189319 | PRJNA167053 | |
| ID проекта | 69991 | 189319 | 167053 |
| Дата регистрации проекта | 3-Aug-2011 | 8-Aug-2013 | 8-Jul-2013 |
| Цель изучения | Medical | Model Organism | Evolution |
| Идентификатор образца | SAMN02981352 | SAMN02981520 | SAMN02981459 |
| Сборка | GCA_000223135.1 | GCA_000448345.1 | GCA_000419365.1 |
| Размер (Mb) | 2399.79 | 2332.77 | 2360.13 |
| GC% | 41.60 | 42.00 | 41.50 |
| Гены | 27752 | 21779 | 27756 |
| Белки | 34935 | 29144 | 32843 |
Количество образцов в проекте - 3. Конечная сборка сделана по образцу BioSample: SAMN02981352; GenBank: gb|AFTD00000000.1. Образец представлял собой клетки из клеточной линии CHO-K1.
Клеточная линия CHO-K1 представляет собой эпителиальные клетки, полученные из яичников Cricetulus griseus, которые широко используются в генетических исследованиях и исследованиях
экспрессии генов, в частности, экспрессии рекомбинантных белков. Клетки CHO-K1 характеризуются быстрым ростом в суспензионной культуре, высокой продукцией белка и малым количеством (для млекопитающего)
числа хромосом (2n=22).
Образец взят у самки Cricetulus griseus в Китае. Описание соответствующего проекта см. в таблице выше.
Два других образца:
Последовательности нуклеиновых кислот предоставляют фундаментальную отправную точку для описания и понимания структуры, функций и развития генетически разнообразных организмов. Банки нуклеотидных
последовательностей, такие как GenBank, EMBL, и DDBJ с самого своего основания используют таблицы сайтов и особенностей для описания местонахождения и роли наиболее высокоорганизованных
доменов нуклеотидных последовательностей и элементов генома организма.
В феврале 1986 года, GenBank и EMBL(а затем и DDBJ) разрабатывают единые стандарты таблиц аннотирования.
Документация таблиц особенностей демонстрирует общие правила, которые дают возможность обмена данных между тремя вышеупомянутыми банками последовательностей на регулярной основе.
Участки с различными особенностями, которые будут представлены:
Эта запись может быть прочтена так: последовательность, кодирующая бета-цепь Т-клеточного рецептора, состоит из двух отдельных частей с координатами (544..589,688..>1032).
Feature Key sig_peptide
Если в белке присутствует сигнальный пептид - короткая (от 3 до 60 аминокислот) аминокислотная последовательность в составе белка, которая обеспечивает котрансляционный или посттрансляционный транспорт
белка в соответствующую органеллу (ядро, митохондрия, эндоплазматический ретикулум, хлоропласт, апопласт или пероксисома), то в этом ключе даются координаты кодирующей его последовательности и название гена,
в который входит эта последовательность.
Feature Key source
Ключ - идентификатор биологического источника последовательности, является обязательным. Допускается многоразовое использование этого ключа(при нескольких источниках).
Feature Key mRNA
Ключ, содержащий координаты кодирующей мРНК последовательности, включающей в себя 5'UTR, кодирующую последовательность (CDS, экзон) и 3'UTR.
Feature Key regulatory
Ключ - идентификатор участков последовательности, вовлеченных в регуляцию транскрипции или трансляции. Заменил собой следующие ключи: enhancer, promoter, CAAT_signal, TATA_signal, -35_signal, -10_signal,
RBS, GC_signal, polyA_signal, attenuator, terminator, misc_signal. Обязательный спецификатор: /regulatory_class="TYPE".
Feature Key CDS
Ключ координат кодирующей последовательности гена, которая соответствует аминокислотной последовательности в белке(включая стоп-кодон). Спецификаторы этого ключа часто указывают на название гена, кодируемого
белка, его функции(-ий) и др.
Feature Key intron
Координаты транскрибирующегося участка ДНК, который потом удаляется из транскрипта путем сплайсинга в процессе созревания РНК.
Feature Key operon
Ключ последовательности, содержащей полицистронный транскрипт, который включает в себя кластер генов, находящихся под контролем одного промотера.
Feature Key rep_origin
Координаты сайта начала репликации.
Feature Key V_region
Вариабельные участки легких и тяжелых цепей иммуноглобулинов, α-, β- и γ-цепей Т-клеточных рецепторов.
Feature Key tRNA
Ключ, содержащий координаты кодирующей тРНК последовательности. Обычно в ключе указывается позиция антикодона в этой последовательности и аминокислота, которую несет конкретная тРНК.
| Cancer Genome Atlas (TCGA)- проект, создающий каталоги генетических мутаций, ответственных за рак, используя методы секвенирования генома и биоинформатику. TCGA использует методы анализа генома с высокой пропускной способностью, с целью улучшить возможности диагностирования, лечения и профилактики рака благодаря более глубокому пониманию генетических основ этого заболевания. Проект стартовал в 2005 году с пилотной версии и продолжается до сих пор. Финансирование предоставляется правительством США. Трехлетний пилотный проект был сосредоточен на характеристике трех типов рака человека: мультиформной глиобластоме, раке легких и раке яичников. В 2009 году проет перешел в II этап, в процессе которого планировалось завершить геномную характеризацию и анализ последовательностей 20-25 различных типов опухолей к 2014 году. Проект превзошел цели, было охарактеризовано 33 типа рака, включая 10 редких видов. TCGA управляется учеными и менеджерами из Национального института рака (NCI) и Национального исследовательского института генома человека (NHGRI). Посдедняя из опубликованных статей, связанных с проектом: Relation between Established Glioma Risk Variants and DNA Methylation in the Tumor. Перейти на страницу проекта Вы можете нажав на картинку. |
|
| В задании требовалось найти все полные митохондриальные геномы по таксону Euglenozoa, выбрать представителя и создать таблицу всех митохондриальных генов этого организма. Поиск производился по запросу ((((euglenozoa[ORGN]) AND ("complete genome"[Title] OR "complete sequence"[Title])) AND (mitochondrion[Title] OR kinetoplast[Title])) NOT partial[Title]). Результаты поиска можно посмотреть по ссылке. Было найдено 263 результата, 262 из GenBank, 1 из RefSeq. Можно заметить, что в запросе присутствует фраза mitochondrion[Title] OR kinetoplast[Title]. Это изменение было введено в запрос, т.к. у некоторых организмов, принадлежащих к выданному мне таксону Euglenozoa, имеется кинетопласт(рис.1, K) — клеточная органелла протистов, находящаяся внутри гигантской митохондрии и содержащая множество копий митохондриального генома.[3] На рис.1 можно увидеть электронную микрофотографию кинетопласта (K) из Trypanosoma brucei. Был взят организм Leishmania tarentolae - облигатный паразитический протист, обитающий в крови человека и вызывающий лейшманиоз. Жизненный цикл Leishmania donovani можно увидеть на рис.2. |
|
Для получения списка митохондриальных генов нужно было перейти по ссылке gene
в разделе Related information. Cписок был отсортирован в соответствии с порядком
генов в геноме. Всего был найдено 24 гена. Итоговый файл Exel.
| Вироиды | Вирусы | Археи | Бактерии | Эукариоты | |
| Минимальный | 220 (RYMV, rice yellow mottle sobemovirus) | 1760 (Porcine Circovirus) | 491000 (Nanoarchaeum equitans) | 580073 (Mycoplasma genitalium) | 551000 (Guillardia theta) |
| Средний | 300-350 | 104 | 106 | 107 | ~109 |
| Максимальный | 467 | 2800000 (Pandoravirus salinus) | 5751000 (Metanosoma acetivorans) | 9200000 (Bradhyrhizobium japonicum) | 670000000000 (Amoeba dubia) |
Источники:
© Avdiunina Polina, 2015