Практикум №7

Банки нуклеотидных последовательностей

1. Описание нуклеотидной последовательности, полученной на ББС.

В данной части практикума необходимо было найти нуклеотидную последовательность, полученную на ББС МГУ (Беломорская биологическая станция им. Н.А.Перцова Биологического факультета Московского государственного университета имени М.В.Ломоносова). При помощи их официального (сайта) было получено официальное название станции на английском языке. "White Sea Biological Station" или просто WSBS. Так как, в основном, полученные данные с ББС переводятся в базу данных GeneBank (ссылка), то поиск производился именно там. По запросу 'wsbs' было получено 237 результатов. Я выбрал "Caprella septentrionalis voucher WS223 histone H3 gene, partial cds" (ссылка).

Данные о выбранной записи считаю целесообразным представить в виде таблицы.

Идентификационный номер KJ530684
Тип нуклеиновой кислоты ДНК
Длина последовательности 419 нуклеотидов
Дата депонирования в банк последовательностей 24-го июня 2011
Авторы Neretina,T., Stupnikova,A. and Schepetov,D
Обоснование того, что образец получен на ББС Данная запись действительно с ББС, так как: в поле features есть "/note="WSBS"", WSBS - White Sea Biological Station; в поле Journal написан наш факультет; при поиске имён некоторых авторов в интернете на их странице в Истине написано, что они работают, в том числе и на ББС (скорее всего, часть авторов – студенты или аспиранты, так как их страницы в Истине почти пустые); Caprella septentrionalis действительно обитает в Белом море (ссылка подтверждение).
Имя организма и немного интересных фактов Caprella septentrionalis. Это ракообразое, которое также называют "морская козочка" (на самом деле так называют целый инфраотряд, но и её тоже). Маленькое (несколько десятков мм), всеядное донное животное. Большую часть своей непродолжительной жизни (живут они около года) они сидят на водорослях, зацепившись задними ножками за коралл, губку или какое-то животное и пытаются поймать себе еду. Интересно, что их способ передвижения напоминает передвижение гусениц.
Имя гена "Histone H3". H3 это белок-кодирующий ген, который несёт в себе информацию о гистоне H3, одном из 5 главных гистонов у эукариот.
Последовательность в формате fasta ссылка

Таблица 1. Анализ записи из GenBank

Данное исследование может помочь уточнить систематику Карпеллид, так как гистон H3 есть у подавляющео числа эукариот, а значит его анализ поможет уточнить эволюционное дерево. А также это просто достаточно интересно.

Рис 1,2. Caprella septentrionalis

Характеристика качества сборки генома эукариотического организма

В данной части практикума было необходимо выбрать организм и оценить сборку его генома. Я выбрал Podacris muralis nigriventris или Common wall lizard. Я не думаю, что мне необходимо описывать данный организм, так как почти каждый из вас видел ящерицу. Но, на случай если вы забыли, как выглядит эта замечательная рептилия, теряющая свой хвост в случае опасности, я прикрепляю фото.

Рис. 3. Common wall lizard

Для данного организма на данный момент существуют 2 сборки. Так как одна из них была создана в 2019 году, а другая 23 сентября 2020 года, то я выбрал вторую. (ссылка)

Название LU_Pmuni_1.1
AC сборки Для RefSeq отсутствует. Для GenBank - GCA_014706415.1
Assembly level Хромосомный
Общая длина последовательности 1.786.136.138
Число контигов 47.419
N50 для контигов 8.570.969
L50 для контигов 42
Число скэффолдов 3.561
N50 для скэффолдов 51.203.085
L50 для скэффолдов 11

Таблица 2. Характеристика сборки генома Обыкновенной степной ящерицы

Также было необходимо получить файл с последовательностью одного контига. (ссылка)

Получение списка полных геномов SARS-CoV

Поиск проводился в базе NCBI Virus по запросу "Severe acute respiratory syndrome-related coronavirus" (было сложно не дать ему изменить мой запрос на Sars-CoV2). Привожу ссылку на полученный результат. (ссылка) Далее я скачал полученный результат в таблицу, и отсортировал её по тому, завершена ли последовательность или нет (ссылка). Не вижу смысла добавлять какие-то другие колонки, так как все вирусы будут находится в genus Betacoronavirus и family Coronaviridae. А дата, место и авторы для меня не так интересны, как само исследование.

CDS одного генома коронавируса

В данном задании необхдимо было для вируса, использованного нами в предыдущем семестре, получить файл с участками генома, кодирующими белки.

AC нуклеотидной записи NC_045512
Латинское название вида Severe acute respiratory syndrome-related coronavirus 2 (SARS-CoV-2)
TaxID вида 2697049
Тип генома ss-RNA linear
Хозяин вируса Homo sapiens

Таблица 3. Данные о геноме NC_045512

Файл с cds был получен при помощи следующией цепочки действий: Send to --> Coding sequences --> FASTA nucleotide (файл).