Анализ качество сборки генома эукариотического организма
Ход работы
- Был выбран организм (эукариот и не млек): Мексиканская амбистома
- Приведено краткое описание, картинка и указано число сборок генома
Пояснения и результаты
В качестве организма была выбрана Мексиканская амбистома (лат. Ambystoma mexicanum) Обитает лишь в одном озере в Мексике (хотя раньше были распространены в нескольких небольших озерах в центральной Мексике). Хорошо известны их неотенические особи под названием аксолотль бело-розового цвета. Взрослые особи же имеют черную окраску с голубоватым отливом. Живут в температурном диапозоне от 12℃ зимой и до 20℃ летом. На сайте NCBI указаны 2 сборки генома.
Для поиска был введено название организма в NCBI Genome (ambystoma mexicanum[orgn]). Была выдана страничка с таксономией организма, референсным геномом (с перечислением всех хромосом и информация о них) и другой информацией. Далее переходим по ссылке Genome Assembly and Annotation report (рядом указано количество сборок). Выдается таблица со сборками и информацией о них. Выбранная сборка отмечена на рисунке 2 (она имеет уровень сборки Chromosome и содержит 20 хромосом, которые и должны быть судя по референсному геному). По ссылке в столбце Assembly переходим к полной информации о выбранной сборке (которая указана в таблице 1). После этого возвращаемся к таблице сборок и переходим по ссылке, указанной в столбце WGS, напротив нашей сборки. По непонятной причине при переходе по ссылке напротив выбранной сборки на сайте во вкладке Contigs пусто, сколько раз не перезагружал страничку, поэтому перешел по ссылке второй последовательности , выбрал контиг перешел по его ссылке FASTA и скачал оттуда fasta-файл спонтанного контига.
Название (assembly name) | ASM291563v2 |
---|---|
AC сборки из GenBank | GCA_002915635.2 |
"Уровень" сборки (assembly level) | Chromosome |
Общая длина последовательности | 32396370977 |
Число контигов | 891205 |
Число скэффолдов | 98070 |
N50 контиг | 216366 |
L50 контиг | 35791 |
N50 скэффолд | 1412624359 |
L50 скэффолд | 11 |
Число аннотированных белков | не указано |
Ссылка на публикацию с описанием проекта | PRJNA378970 |
Ссылка на последовательность одного из контигов в формате .fasta | JXRH01549951.1 |
Скачивание последовательности CDS одного из прокариотических вирусов
Ход работы
- Сначала был проведен поиск геномов прокариотических вирусов с длинной от 20000 до 30000 п.н., которые относятся к семейству Siphoviridae
- Выбран организм
- Создан файл его CDS
Пояснения и результаты
Для выполнения задания на сайте NCBI был проведен поиск прокариотических вирусов с длиной генома 20000-3000 п.н., относящихся к семейству Siphoviridae. Страница с запросом отображена на рисунке 4. На нем отображены сам запрос ((Siphoviridae[Organism]) AND 20000:30000[Sequence Length]) AND "complete genome"), строчка Species, где были выбраны только вирусы, строчка Sequence length, где было отмечено 20000-30000 и подчеркнут выбранный геном. Находок в GenBank: 544, в RefSeq: 108. При переходе по ссылке выбранного организма попадаем на страницу с его описанием GenBank. Находим Send to, выбираем Coding Sequences, FASTA Nucleotide.
AC нуклеотидной записи | MN813692 |
---|---|
Латинское название | Cutibacterium phage P106C |
TaxID вида | 2686218 |
Тип генома | DNA linear |
Хозяин вируса | Cutibacterium |
Ссылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) | Кодирующие последовательности |
Опиcание семи ключей, используемых в таблицах особенностей
Для описания ключей был использован данный мануал
- gene : участок интереса, в котором предположительно находится ген
gene 7137091..7137201 /locus_tag="RB13311" /db_xref="GeneID:1794243"
- misc_feature : участок интереса, который не удается определить как любой другой
misc_feature 135663^135664 /locus_tag="RB276" /note="cosmid pircos-c1d12/ cosmid pircos-d2e11 joining point"
- regulatory : любой участок, отвечающий за регуляцию (напр. транскрипции, трансляции, репликации)
regulatory 44389064..44390365 /regulatory_class="enhancer" /experiment="EXISTENCE:transgenic organism evidence [ECO:0001131][PMID:17130149]" /note="VISTA enhancer hs516" /function="enhancer in: limb[4/6]" /db_xref="GeneID:110120690" /db_xref="VISTA:hs516"
- CDS : белок-кодирующая последовательность;
CDS 7137091..7137201 /locus_tag="RB13311" /codon_start=1 /transl_table=11 /product="hypothetical protein" /protein_id="NP_870974.1" /db_xref="GeneID:1794243" /translation="MWKCIKKPRPRIADEVSIVDESVRRLALRARSQRLL"
- protein_bind : сайт нековалентного связывания белка на нуклеиновой кислоте
protein_bind 44385774..44385801 /experiment="EXISTENCE:protein binding evidence [ECO:0000024][PMID:22303449]" /note="ISL1 site" /bound_moiety="ISL LIM homeobox 1" /db_xref="GeneID:109194135"
- assembly_gap : разрыв между двумя компонентами сборки генома или транскриптома
assembly_gap 49721204..49721303 /estimated_length=100 /gap_type="between scaffolds"
- rep_origin : участок начала репликации молекулы
rep_origin 132079845..132079954 /experiment="EXISTENCE:fractionation evidence [ECO:0000100][PMID:16109380]" /note="GM-CSF Ori1 (primer set 17; PMID:16109380); peak of nascent strand synthesis determined by competitive PCR of size-fractionated nascent DNA" /direction=BOTH /db_xref="GeneID:107198087"