МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

ПРАКТИКУМ №7:
Банки нуклеотидных последовательностей

Задание №1: Описание нуклеотидной последовательности Haematococcus lacustris, секвенированой на ББС

В данном задании было необходимо описать одну нуклеотидную последовательность, секвенированную на ББС. Была выбрана последовательность
18S-рибосомальной РНК зеленой микроводоросли Haematococcus lacustris, секвенированная на ББС им. Перцова в 2016 году.

1

Haematococcus lacustris — это зеленая микроводоросль, вырабатывающая натуральный пигмент астаксантин, который придает красный цвет
мясу лососевых рыб и панцирям ракообразных. Поэтому биомасса таких водорослей используется как компонент корма в аквакультуре. Также
это самый сильный природный антиоксидант, входящий в состав дорогостоящих косметических, лекарственных средств и биоактивных добавок.
После исследования эукариот-паразитов микроводоросли Haematococcus lacustris было определено, что в их биомассах находятся определенные
группы грибов-микромицетов и простейших, которые наносят существенный вред водорослевым хозяйствам.

1

18S-рибосомальная РНК Haematococcus lacustris действительно была получена на Беломорской биостанции МГУ, о чем свидетельствует запись в разделе source:

"Russia: Nikolai Pertsov White Sea Biological Station of Biology Department of Lomonosov Moscow State
University, on the coast of Kandalaksha Bay of the White Sea, Kindo Peninsula, Louhi region, Republic of Karelia".


Некоторые характеристики записи представленны в таблице:

Идентификатор записи KY049901.1
Длина последовательности 333 bp
Дата депонирования в
банк последовательностей
25.10.2016
Авторы записи Боброва М., Чеканов К.А.,
Федоренко Т.А., Лобакова Е.С.


Скачать геном 18S-рибосомальной РНК Haematococcus lacustris в формате .fasta можно по ссылке

Задание №2: Качество сборки генома эукариотического организма

Коала (лат. Phascolarctos cinereus) — вид сумчатых, обитающий в Австралии. Он является единственным современным представителем
семейства коаловых (Phascolarctidae) из отряда двурезцовых сумчатых (Diprotodontia). Слово коала (англ. koala) происходит от даракского
слова gulawan или его укороченной формы gula. Первоначально оно было транскрибировано на латинский шрифт как cullawine, но постепенно
его вытеснил вариант koola. Видовое название cinereus было предложено в 1817 году Георгом Августом Гольдфусом, и с латинского языка
означает «пепельный». Несмотря на то, что таксономически коалы не являются медведями или близкими к ним животными, англоговорящие
поселенцы конца XVIII века называли их медведем коала (англ. koala bear) из-за внешнего сходства коал и медведей. Это название до сих пор
используется за пределами Австралии.

1

Естественный ареал коалы включает в себя прибрежные районы на востоке и юге Австралии, на территории от Аделаиды до южной части
полу-острова Кейп-Йорк. Также они распространены в регионах с достаточным количеством влаги для поддержки подходящих коалам лесов.
Коалы штата Южная Австралия были в значительной степени уничтожены в течение первой половины XX века, но с помощью особей из штата
Виктория, популяция коал в Южной Австралии восстановлена. В начале XX века они были завезены в Янчепe в Западной Австралии, а также
на ряд островов у побережья Квинсленда, в том числе острове Кенгуру и Магнитный остров, который предположительно является самой
северной оконечностью современного ареала коал. Общая площадь ареала коал составляет около 1 000 000 км² и включает в себя не менее 30
биогеографических регионов.

1

Для коалы известно три сборки генома, однако одна из них неполная, а из двух других была выбрана сборка с более высоким assembly level
(scaffold). Качество выбранной сборки было оценено по ряду параметров, результаты оценки представлены в таблице ниже:

Название (assembly name) Phascolarctos cinereus (koala)
AC сборки из RefSeq -
AC сборки из GenBank GCA_900166895.1 (latest)
Уровень сборки (assembly level) Scaffold
Общая длина последовательности 3603908365
Число контигов 819636
N50 и L50 для контигов 126882 и 7804
Число скэффолдов 796464
N50 и L50 для скэффолдов 798273 и 1246
Число аннотированных белков 0


Ссылка на публикацию с описанием проекта
Ссылка на последовательность одного из контигов в формате .fasta

Задания №3-4: Получение списка полных геномов таксона коронавирусов и последовательности
CDS одного генома коронавируса из таксона

Коронавирусы (лат. Coronaviridae) — семейство вирусов, включающее на май 2020 года 43 вида РНК-содержащих вирусов, объединённых в два
подсемейства, которые поражают млекопитающих, включая человека, птиц и земноводных. Название связано со строением вируса, шиповидные
отростки которого напоминают солнечную корону. Известно 7 коронавирусов, поражающих человека:

1. HCoV-229E — Alphacoronavirus, впервые выявлен в середине
1960-х годов;
2. HCoV-NL63 — Alphacoronavirus, возбудитель был выявлен в
Нидерландах в 2004 году;
3. HCoV-OC43 — Betacoronavirus A, возбудитель был выявлен
в 1967 году;
4. HCoV-HKU1 — Betacoronavirus A, возбудитель обнаружен в
Гонконге в 2005 году;
5. SARS-CoV — Betacoronavirus B, возбудитель тяжёлого ос-
трого респираторного синдрома, первый случай заболевания
которым был зарегистрирован в 2002 году;
6. MERS-CoV — Betacoronavirus C, возбудитель ближневос-
точного респираторного синдрома, вспышка которого
произошла в 2015 году;
7. SARS-CoV-2 — Betacoronavirus B, выявленный во второй
половине 2019, вызвавший пандемию пневмонии нового
типа COVID-19 и ставший сейчас всемирной проблемой, в
результате чего были закрыты многие границы и введены
экстренные меры безопасности.

В прошлом семестре мной не изучался никакой штамм короновируса, поэтому я позволила себе выбрать произвольный штамм, и, неожиданно,
мой выбор пал на SARS-CoV-2. При поиске в NCBI Virus у данного вируса был найден только 1 геном RefSeq, поэтому был также произведен
поиск по таксону Sarbecovirus (Текст запроса: "Sarbecovirus, taxid:2509511"), в котором было обнаружено 3 RefSeq генома.

Таблицу находок можно скачать по ссылке.

1

В NCBI Nucleotide был произведен поиск записей полного генома вируса вида SARS-CoV-2.

Текст запроса: SARS-CoV-2[Organism] and "complete genome" and 10000:40000[Sequence Length]. В Genbank было 19489 находок, в Refseq - 1.

Файл с участками генома, предположительно кодирующими белки (CDS), можно скачать по ссылке.

В таблице можно найти некотурую информацию о нуклеотидной записи:

AC нуклеотидной записи
(ACCESSION)
NC_045512
Латинское название вида
(SOURCE – ORGANISM)
Severe acute respiratory
syndrome coronavirus 2
(SARS-CoV-2)
Хозяин вируса
(FEATURES-source-/host)
Homo sapiens
TaxID вида
(FEATURES-source-/db_xref)
2697049
Тип генома
(LOCUS)
ss-RNA, линейная