Учебный сайт Лидии Гаркуль

Банки нуклеотидных последовательностей

Задание 1.

В первом задании была выбрана нуклеотидная последовательность с идентификатором KF986566. Она была найдена в базе данных GeneBank с помощью запроса: "WSBS" "White Sea".

Из записи можно получить следующую информацию:

Понять, что этот образец был получен на ББС (White Sea Biologocal Station - WSBS) можно из следующих строк:

FEATURES             Location/Qualifiers
            source          1..268
                            /specimen_voucher="WS1396 WSBS Malyi Krestovyi Island"
                            /lat_lon="66.52 N 33.19 E"
                            /collection_date="21-Aug-2011"
                            /collected_by="N. Neretin"

Также видно, что образец собрал N. Neretin 21 августа 2011 года в месте с координатами 66.52 N 33.19 E. Ниже на карте я отметила место сбора и расположение биологической станции.

Интересно, что в том же разделе FEATURES указали последовательности и названия праймеров, используемых для ПЦРа.

FEATURES             Location/Qualifiers
            source          1..268
                            /PCR_primers="fwd_name: h3af, fwd_seq:
                            atggctcgtaccaagcagacvgc, rev_name: h3ar, rev_seq:
                            atatccttrggcatratrgtgac"

Последовательность в fasta-формате можно найти тут.

Карта для наглядности.

tRNA

Рис. 1. Dyopedos porrectus.

Задание 2. Оценка качества сборки генома эукариотического организма.

В данной части практикума в качестве эукариотического организма был взят Cucurbita pepo (тыква обыкновенная). При поиске по организмам на странице NCBI Genome для Cucurbita pepo выдает одну сборку для подвида Cucurbita pepo subsp. pepo. В обычной жизни данное растение известно под названием кабачок. На рисунке 2 показан его внешний вид.

cabachock

Рис. 1. Cucurbita pepo subsp. pepo (кабачок). Источник.
Таблица. 1. Информация о лучшей сборке.
Assembly name ASM280686v2
AC сборки из RefSeq GCF_002806865.1
"Уровень" сборки Chromosome
Общая длина последовательности 261,354,759
Число скэффолдов 25,263
Число N50 скэффолдов 9,833,969
Число L50 скэффолдов 11
Число контигов 31,835
Число N50 контигов 109,364
Число L50 контигов 617
Число аннотированных белков не найдены аннотированные записи
Ссылка на публикацию с описанием проекта De novo assembly of the zucchini genome reveals a whole-genome duplication associated with the origin of the Cucurbita genus
Ссылка на последовательность одного из контигов в формате .fasta sequence.fasta

Задание 3. Получение списка полных геномов вирусов из таксона Sarbecovirus.

В прошлом семестре мной рассматривался коронавирус SARS. Для того чтобы в линейке таксономии этого вируса найти высший таксон, в котором будет более одного полного генома, в NCBI Nucleotide был введен запрос SARS. В выданной записи о геномной сборке был найден таксон Sarbecovirus. Далее в том же NCBI Nucleotide было введено Sarbecovirus (id таксона 2509511). Данный запрос выдает ссылку на NCBI Viruses. Всего геномных сборок в данном таксоне 30433, из них 3 из Genome RefSeq.

Ссылку на таблицу полных геномов можно найти тут.

Задание 4. Последовательности CDS одного генома коронавируса SARS.

Для данного задания был выбран геном из RefSeq NC_004718. Информация о нем представлена в таблице ниже.

Таблица. 2. Информация о геномной сборке NC_004718.
AC нуклеотидной записи NC_004718
Латинское название вида SARS coronavirus Tor2
TaxID вида 227984
Тип генома RNA linear
Хозяина вируса Homo sapiens

Файл в fasta-формате с участками генома, предположительно кодирующими белки (CDS) находится тут.