Практикум 5. Банки нуклеотидных последовательностей

В ходе этого практикума были найдены и охарактеризованы записи из нуклеотидных баз данных, содержащие информацию о геномах некоторых выбранных организмов. Кроме того, здесь представлен отчёт по выполнению предварительного задания к практикуму - поиска последовательности, секвенированной на Беломорской биологической станции МГУ.

Описание нуклеотидной последовательности, секвенированной на ББС

Для поиска такой последовательности была выбрана база данных ENA. По запросу:
White Sea Biological Station
в домене «Nucleotide sequences» было найдено 62 записи, первая из которых (AC: KU844002) была выбрана мной как подходящая. Действительно, в полях RN, RP, RA, RT, RL этой записи значилось следующее:


RN   [1]
RP   1-1452
RA   Lipei S., Shestakov A., Shestakova O., Korneeva V.;
RT   "Results of the student summer internship on the White Sea Biological
RT   Station in 2015";
RL   Unpublished.
XX
RN   [2]
RP   1-1452
RA   Lipei S., Shestakov A., Shestakova O., Korneeva V.;
RT   ;
RL   Submitted (29-FEB-2016) to the INSDC.
RL   Faculty of Biology, Moscow State University, Leninskie Gori, Moscow 119234,
RL   Russia

Отсюда нам становятся известны фамилии авторов, место обучения (Биологический факультет МГУ), год прохождения практики на ББС и дата отправки записи в INSDC. В поле FT также содержится информация, указывающая, что данная последовательность была получена на ББС:

FT                   /isolation_source="White Sea near the White Sea Biological
FT                   Station"

Итак, собственно описание записи:

• Идентификатор: KU844002; SV 1; linear; genomic DNA; STD; PRO; 1452 BP.
• Геномная ДНК, 1452 пар оснований, депонирована в INSDC 29 февраля 2016 (запись создана 20 марта 2016)
• Авторы: Lipei S., Shestakov A., Shestakova O., Korneeva V.
• Организм - Aliivibrio sp. WSBS1 (бактерия из класса гамма-протеобактерий, штамм WSBS1)
• Интересное про образец: бактерия паразитировала (или вступила в симбиоз?) на рыбе - европейском керчаке (Myoxocephalus scorpius), образец был получен в Белом море неподалёку от ББС в августе 2015
• Последовательность - часть гена 16S рибосомальной РНК
• Собственно последовательность в формате fasta: KU844002.1.fasta
• Метод секвенирования: по Сэнгеру (обрывом цепи)

Описание сборки генома эукариотического организма

Для этой цели был выбран мох Фискомитрелла раскрытая (Physcomitrella patens, также Physcomitrium patens).

Рисунок 1. P. patens на агаре. Источник: ReskiLab, University of Freiburg (ссылка)

Это растение распространено в умеренном климате по краям водоёмов в разных частях света, за исключением Южной Америки. В последнее время P. patens используется как модельный организм при изучении эволюции растений, репарации ДНК, а также находит своё применение в биотехнологии в сфере производства биофармацевтических препаратов.

В базе данных NCBI Genome по запросу physcomitrium patens были найдены 4 записи - 3 из раздела Organelles и 1 из раздела Eukaryotes. Таким образом, для этого организма доступна 1 сборка генома (ссылка), и далее приведено её описание. Любопытно, что данная сборка была получена методом секвенирования по Сэнгеру, а не NGS.

• Название: Phypa V3
• AC (RefSeq): GCF_000002425.4
• Уровень сборки: хромосомный (Chromosome)
• Общая длина последовательности: 472 081 022 bp
• Число контигов: 3 002
• Число скэффолдов: 359
• N50 для контигов: 465 069
• L50 для контигов: 311
• N50 для скэффолдов: 17 435 539
• L50 для скэффолдов: 12
• Число аннотированных белков: 31 248
• Публикация с описанием проекта: PubMed 18079367
• Один из контигов сборки: ABEU02000076.fasta

Вышеупомянутая последовательность контига была получена следующим образом: со страницы сборки переходим по ссылке WGS Project: ABEU02, оттуда - по ссылке ABEU02000001-ABEU02000357 из поля WGS. Стоит отметить, что, судя по всему, в полученном списке контигами названы скэффолды, однако среди них был выбран такой, что он, по существу, является контигом, так как не содержит неопределённых позиций («N»).

Поиск полных геномов вируса MERS-CoV

Для этого в базе данных NCBI Virus был проведён поиск по фильтрам:

Virus: Middle East respiratory syndrome-related coronavirus (MERS-CoV), taxid:1335626
Nucleotide Completeness: complete

Было найдено 530 последовательностей, среди которых 2 - из базы RefSeq. Далее приведены ссылки на таблицы с результатами поиска:

Таблица полных геномов
Таблица всех геномов (фильтр complete убран)

Получение последовательностей CDS из генома MERS-CoV

Из найденных в предыдущем задании геномов был выбран один. Далее приведены некоторые его характеристики и собственно файл с кодирующими последовательностями:

• AC: NC_038294
• Название вида: Betacoronavirus England 1, Taxonomy ID: 1263720
• Тип генома: ssRNA линейный
• Хозяин: Homo sapiens
• Файл с предположительно кодирующими участками генома: CDS_NC_038294.fasta

Приведённый файл был получен следующим образом: страница генома -> Send to: -> Coding Sequences -> Format: FASTA Nucleotide -> Create File.