Практикум #7. Банки нуклеотидных последовательностей

Анализ качество сборки генома эукариотического организма

Ход работы

Пояснения и результаты

В качестве организма была выбрана Мексиканская амбистома (лат. Ambystoma mexicanum) Обитает лишь в одном озере в Мексике (хотя раньше были распространены в нескольких небольших озерах в центральной Мексике). Хорошо известны их неотенические особи под названием аксолотль бело-розового цвета. Взрослые особи же имеют черную окраску с голубоватым отливом. Живут в температурном диапозоне от 12℃ зимой и до 20℃ летом. На сайте NCBI указаны 2 сборки генома.

Мексиканская амбистома

Рис.1 Мексиканская амбистома (лат. Ambystoma mexicanum)

Сборки генома

Рис.2 Сборки генома на NCBI. Красным выделено количество и выбранная сборки.

Для поиска был введено название организма в NCBI Genome (ambystoma mexicanum[orgn]). Была выдана страничка с таксономией организма, референсным геномом (с перечислением всех хромосом и информация о них) и другой информацией. Далее переходим по ссылке Genome Assembly and Annotation report (рядом указано количество сборок). Выдается таблица со сборками и информацией о них. Выбранная сборка отмечена на рисунке 2 (она имеет уровень сборки Chromosome и содержит 20 хромосом, которые и должны быть судя по референсному геному). По ссылке в столбце Assembly переходим к полной информации о выбранной сборке (которая указана в таблице 1). После этого возвращаемся к таблице сборок и переходим по ссылке, указанной в столбце WGS, напротив нашей сборки. По непонятной причине при переходе по ссылке напротив выбранной сборки на сайте во вкладке Contigs пусто, сколько раз не перезагружал страничку, поэтому перешел по ссылке второй последовательности , выбрал контиг перешел по его ссылке FASTA и скачал оттуда fasta-файл спонтанного контига.

Таблица 1. Информация о сборке генома.
Название (assembly name) ASM291563v2
AC сборки из GenBank GCA_002915635.2
"Уровень" сборки (assembly level) Chromosome
Общая длина последовательности 32396370977
Число контигов 891205
Число скэффолдов 98070
N50 контиг 216366
L50 контиг 35791
N50 скэффолд 1412624359
L50 скэффолд 11
Число аннотированных белков не указано
Ссылка на публикацию с описанием проекта PRJNA378970
Ссылка на последовательность одного из контигов в формате .fasta JXRH01549951.1

Скачивание fasta

Рис.3 Вкладка на сайте, где перечислены все скэффолды и контиги, а также указаны ссылки на скачивание последовательности в нужном формате. Красным выделен скачанный контиг.

Скачивание последовательности CDS одного из прокариотических вирусов

Ход работы

Пояснения и результаты

Для выполнения задания на сайте NCBI был проведен поиск прокариотических вирусов с длиной генома 20000-3000 п.н., относящихся к семейству Siphoviridae. Страница с запросом отображена на рисунке 4. На нем отображены сам запрос ((Siphoviridae[Organism]) AND 20000:30000[Sequence Length]) AND "complete genome"), строчка Species, где были выбраны только вирусы, строчка Sequence length, где было отмечено 20000-30000 и подчеркнут выбранный геном. Находок в GenBank: 544, в RefSeq: 108. При переходе по ссылке выбранного организма попадаем на страницу с его описанием GenBank. Находим Send to, выбираем Coding Sequences, FASTA Nucleotide.

Запрос

Рис.4 Страница с запросом NCBI
Таблица 2. Информация о сборке генома вируса Propionibacterium phage Cota.
AC нуклеотидной записи MN813692
Латинское название Cutibacterium phage P106C
TaxID вида 2686218
Тип генома DNA linear
Хозяин вируса Cutibacterium
Ссылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) Кодирующие последовательности

Опиcание семи ключей, используемых в таблицах особенностей

Для описания ключей был использован данный мануал