Практикум 5. Банки нуклеотидных последовательностей
В ходе этого практикума были найдены и охарактеризованы записи из нуклеотидных баз данных, содержащие информацию о геномах некоторых выбранных организмов. Кроме того, здесь представлен отчёт по выполнению предварительного задания к практикуму - поиска последовательности, секвенированной на Беломорской биологической станции МГУ.
Описание нуклеотидной последовательности, секвенированной на ББС
Для поиска такой последовательности была выбрана база данных ENA. По запросу:
White Sea Biological Station
в домене «Nucleotide sequences» было найдено 62 записи, первая из которых (AC: KU844002) была выбрана
мной как подходящая. Действительно, в полях RN, RP, RA, RT, RL этой записи значилось следующее:
RN [1] RP 1-1452 RA Lipei S., Shestakov A., Shestakova O., Korneeva V.; RT "Results of the student summer internship on the White Sea Biological RT Station in 2015"; RL Unpublished. XX RN [2] RP 1-1452 RA Lipei S., Shestakov A., Shestakova O., Korneeva V.; RT ; RL Submitted (29-FEB-2016) to the INSDC. RL Faculty of Biology, Moscow State University, Leninskie Gori, Moscow 119234, RL RussiaОтсюда нам становятся известны фамилии авторов, место обучения (Биологический факультет МГУ), год прохождения практики на ББС и дата отправки записи в INSDC. В поле FT также содержится информация, указывающая, что данная последовательность была получена на ББС:
FT /isolation_source="White Sea near the White Sea Biological FT Station"
Итак, собственно описание записи:
• Идентификатор: KU844002; SV 1; linear; genomic DNA; STD; PRO; 1452 BP.
• Геномная ДНК, 1452 пар оснований, депонирована в INSDC 29 февраля 2016 (запись создана 20 марта 2016)
• Авторы: Lipei S., Shestakov A., Shestakova O., Korneeva V.
• Организм - Aliivibrio sp. WSBS1 (бактерия из класса гамма-протеобактерий, штамм WSBS1)
• Интересное про образец: бактерия паразитировала (или вступила в симбиоз?) на рыбе - европейском керчаке (Myoxocephalus scorpius), образец был получен в Белом море неподалёку
от ББС в августе 2015
• Последовательность - часть гена 16S рибосомальной РНК
• Собственно последовательность в формате fasta: KU844002.1.fasta
• Метод секвенирования: по Сэнгеру (обрывом цепи)
Описание сборки генома эукариотического организма
Для этой цели был выбран мох Фискомитрелла раскрытая (Physcomitrella patens, также Physcomitrium patens).
Это растение распространено в умеренном климате по краям водоёмов в разных частях света, за исключением Южной Америки. В последнее время P. patens используется как модельный организм при изучении эволюции растений, репарации ДНК, а также находит своё применение в биотехнологии в сфере производства биофармацевтических препаратов.
В базе данных NCBI Genome по запросу physcomitrium patens были найдены 4 записи - 3 из раздела Organelles и 1 из раздела Eukaryotes. Таким образом, для этого организма доступна 1 сборка генома (ссылка), и далее приведено её описание. Любопытно, что данная сборка была получена методом секвенирования по Сэнгеру, а не NGS.
• Название: Phypa V3
• AC (RefSeq): GCF_000002425.4
• Уровень сборки: хромосомный (Chromosome)
• Общая длина последовательности: 472 081 022 bp
• Число контигов: 3 002
• Число скэффолдов: 359
• N50 для контигов: 465 069
• L50 для контигов: 311
• N50 для скэффолдов: 17 435 539
• L50 для скэффолдов: 12
• Число аннотированных белков: 31 248
• Публикация с описанием проекта: PubMed 18079367
• Один из контигов сборки: ABEU02000076.fasta
Вышеупомянутая последовательность контига была получена следующим образом: со страницы сборки переходим по ссылке WGS Project: ABEU02, оттуда - по ссылке ABEU02000001-ABEU02000357 из поля WGS. Стоит отметить, что, судя по всему, в полученном списке контигами названы скэффолды, однако среди них был выбран такой, что он, по существу, является контигом, так как не содержит неопределённых позиций («N»).
Поиск полных геномов вируса MERS-CoV
Для этого в базе данных NCBI Virus был проведён поиск по фильтрам:
Virus: Middle East respiratory syndrome-related coronavirus (MERS-CoV), taxid:1335626
Nucleotide Completeness: complete
Было найдено 530 последовательностей, среди которых 2 - из базы RefSeq. Далее приведены ссылки на таблицы с результатами поиска:
• Таблица полных геномов
• Таблица всех геномов (фильтр complete убран)
Получение последовательностей CDS из генома MERS-CoV
Из найденных в предыдущем задании геномов был выбран один. Далее приведены некоторые его характеристики и собственно файл с кодирующими последовательностями:
• AC: NC_038294
• Название вида: Betacoronavirus England 1, Taxonomy ID: 1263720
• Тип генома: ssRNA линейный
• Хозяин: Homo sapiens
• Файл с предположительно кодирующими участками генома: CDS_NC_038294.fasta
Приведённый файл был получен следующим образом: страница генома -> Send to: -> Coding Sequences -> Format: FASTA Nucleotide -> Create File.