Учебный сайт
Владимира Ноздрина

Я сломал оленя,
Оседлал моржа,
Не найдя в тюленях
Элементы монтажа.
Кобыла и трупоглазые жабы, "Цедербаум"

Банки нуклеотидных последовательностей

Задание 1. Описание последовательности, секвенированной на ББС.

Рисунок 1. Фотография Aeolidia papillosa из википедии.
 Последовательности искались по запросу «wsbs». По этому запросу было найдено 237. Пролистав через множество последовательностей из нематод (не хотелось брать нематоду), удалось найти последовательность из Aeolidia papillosa (KY463770.1). Это голожаберный моллюск, фотография представлена на Рисунке 1. Авторами записи являются Chichvarkhin, A., Valdes, A., Vainola, R., Laakkonen, H., Chichvarkhina, O. Запись выложена 1 февраля 2019 года.
 Последовательность представляет собой последовательность ДНК гена субъединицы I цитохром оксидазы. Длина последовательности — 656 нуклеотидов. Из поля source можно узнать, что ген митохондриальный. В том же поле source указано следующее:
 /country="Russia: White Sea, Kandalaksha Bay, WSBS MSU"
Это в явном виде указывает на то, что последовательность действительно была получена на ББС МГУ.
На саму последовательность в fasta-формате можно посмотреть по ссылке.

Задание 2. Описание качества сборки генома кашалота.

Рисунок 2. Рисунок кашалота в масштабе слона и человека, взятый из какой-то британской энциклопедии.
 Насколько я понял, для этого задания можно брать млекопитающих, если они достаточно необычные. Я взял кашалота (Physeter catodon), потому что он большой (Насколько он большой, можно увидеть на Рисунке 2). Этот кит известен тем, что в его голове есть так называемый спермацетовый мешок, в котором содержится спермацет, воскоподобное вещество. Температура плавления спермацета находится возле температуры тела кашалота, поэтому меняя уровень притока крови к спермацетовому мешку кашалот может менять агрегатное состояние спермацета, а следовательно и его плотность, тем самым регулируя свою плавучесть. (Это всё есть, например, в википедии)
 Итак, к сборке генома. Для кашалота существует три сборки генома: две на уровне скэффолда и одна на уровне хромосом. Эту последнюю и будем считать лучшей и описывать. Вся информация приведена в Таблице 1.
Таблица 1. Характеристика лучшей сборки для кашалота.
Параметр Значение
название сборки ASM283717v2
AC сборки из RefSeq GCF_002837175.2
Уровень сборки Chromosome
Общая длина последовательности 2 512 149 402
Число скэффолдов 14 677
N50 для скэффолдов 122 182 240
L50 для скэффолдов 9
Число контигов 143 605
N50 для контигов 42,542
L50 для контигов 17 153
Число аннотированных белков 50 591
 Насколько я понял, число аннотированных белков это "protein count" из странички. Что касается ссылки на проект WGS, то она в явном виде размещена на странице сборки из NCBI Genome. На контиг под номером 17153 можно посмотреть, перейдя по этой ссылке.

Задание 3. Получение списка полных геномов вирусов из таксона Betacoronavirus.

 Я искал в NCBI Nucleotide по запросу "Betacoronavirus", там же была ссылка на NCBI Virus этого же таксона. Было найдено 20105 полногеномных сборок, из них 19 из RefSeq. Из скачанной таблицы были удалены все строки, которые по колонке Nuc_Completeness не complete.
Скачать таблицу можно по ссылке.

Задание 4. Скачивание последовательности CDS вируса MERS-CoV.

AC: NC_019843.3
Латинское название: MERS-CoV
TaxID: 1335626
Тип генома: оцРНК, линейный
Хозяин вируса: Человек (Homo sapiens)
Ссылка на файл с последовательностью CDS