Базы НК последовательностей

Описание НК последовательности, отсеквенированной на ББС

Нуклеотидные последовательности, отсеквенированные на ББС, искались в базе данных NCBI. В строку поиска был введён запрос "WSBS" -- White sea biological station, аббревиатура ББС на английском. Из выданных результатов была почти произвольно выбрана последовательность KF986566. Это последовательность линейной ДНК длиной 268 пар нуклеотидов, кодирующая гистон H3 Dyopedos porrectus, депонирована 20 февраля 2014 года. Dyopedos porrectus - ракообразное, вид амфипод из семейства Dulichiidae (снимок можно увидеть на Изоражении 1). Научное название вида было впервые достоверно опубликовано Бэйтом в 1857 году. Вид преимущественно распространён в северной части Атлантического океана, полный список подтверждённых областей распространения можно посмотреть на сайте WORMS. Как видно из карты, представленной на сайте, для Белого моря этот вид чужероден, хотя сообщается о нескольких находках.

Изображение 1. Dyopedos porrectus

Краткая информация о записи:

  • Идентификатор: KF986566
  • Линейная ДНК, 268 bp, 20.02.14
  • Авторы: Neretina,T., Stupnikova,A., Kolbasova,G., Konovalova,O., Schepetov,D. and Mugue,N.
  • В описании присутствует аббревиатура WSBS -- White sea biological station
  • Организм: Dyopedos porrectus, ракообразное
  • Fasta-файл
Качество сборки генома эукариотического организма

К сожалению, сборок геномов крылатки-зебры, морского конька тряпичника и синекольчатых осьминогов не существует. Так как австралийская фауна по какой-то причине не интересна для секвенирования генома, я решил пройтись по креветкам. И тоже встретил отсутствие интереса учёных к сборке генома. Однако для одной креветки — креветки Амано (Caridina Amano) — сборка генома нашлась. С ней и было решено проводить дальнейшую работу.

Caridina multidentata — пресноводная креветка, среди аквариумистов известна как креветка Амано. Распространена в Японии, Корее, на Тайване и является видом-интродуцентов на Мадагаскаре и Фиджи. Длина тела самок 5 см, самцов 3,5 см. Полупрозрачное тело по бокам покрыто красно-коричневыми крапинами, на спине проходит белая полоса. Личинки развиваются в солёной воде, по мере взросления постепенно переещаясь в области с менее солёной водой. На Изображении 1 вы можете увидеть саму креветку. Изображение является ссылкой на его сайт-источник.

Изображение 1. Dyopedos porrectus

Единственной найденной сборкой для этого организма является Cmul_gen_Assembly01. Её характеристики описаны в Таблице 1 ниже. Число аннотированных белков было определено с помощью поиска в UniProt. Последовательность контига искалась следующим образом: на странице сборки в её характеристиках в пункте WGS Project переходили по ссылке на страницу записи, где в пункте WGS нашлась ссылка на список контигов.

Таблица 1. Характеристики сборки генома
Характеристика Значение
Assembly name Cmul_gen_Assembly01
AC RefSeq n/a
AC GenBank GCA_002091895.1
Assembly level Scaffold
Общая длина 1,948,953,281
scaffolds 2,750,712
Scaffold N50 819
Scaffold L50 642,307
contigs 2,751,313
Contig N50 819
Contig L50 642,245
Число аннотированных белков 0
Ссылка на публикацию с описанием проекта PRJDB4543
Последовательность одного из контигов BDMR010000001.1
Получение списка полных геномов таксона коронавирусов, содержащего штамм MERS

На сайте NCBI Virus был произведён поиск по вирусу "Middle East respiratory syndrome-related coronavirus (MERS-CoV), tavid:13335626" (было предложено сайтом по мере ввода запроса). В результате была открыта страница, на которой отобразилась таблица последовательностей. ПВыдача была отсортирована по Nucleotide Compliteness, выбран пункт complete. Полученная таблица была скачана в виде файла sequences.csv. Из всех последовательностей к RefSeq относилось две.

Скачивание последовательности CDS одного генома MERS

Для скачивания был выбран геном NC_038294. На странице записи в ниспадающем меню "Send to:" были выбраны пункты "Coding Sequences", "File", "Format: FASTA". Харектеристики последовательности представлены в Таблице 2.

Таблица 2. Характеристики генома PRJDB4543
Характеристика Значение
AC NC_038294
Название Betacoronavirus England 1
TaxID 1,948,953,281
Тип генома линейная РНК
Хозяин вируса Homo sapiens
Ссылка на FASTA-файл sequence.fasta

Поиск массовых геномных проектов

Не хочу никого оскорбить, но не хотел заканчивать всё таблицей. А так вроде ещё и забавно...