Пракикум 7: Нуклеотидные банки данных

Orcinus orca

Косатки, пожалуй, одни из самых сложно организованных существ на планете. Их общество построено по строгому матриархальному принципу: стабильные семейные группы, «поды», на протяжении поколений передают уникальные охотничьи традиции. Поражает специализация: одни семьи виртуозно охотятся на тюленей, полностью перекроив свои социальные повадки, а другие оттачивают мастерство круглогодичной ловли рыбы, используя для координации целые комплексы звуков. Важно, что эти навыки — не врожденный инстинкт, а именно культурное наследие, сравнимое с человеческими языками или технологиями.

Особый феномен — их вокальные «диалекты». Каждая группа обладает уникальным набором звуков, которые детеныши перенимают именно от матери. Их социальность не ограничивается охотой: они демонстрируют заботу о старых и раненых сородичах, а взрослые самцы часто остаются в группе матери на всю жизнь. Исследователи полагают, что по сложности социальной структуры и способности к обучению косатки уступают только человеку, чему способствует и развитая лимбическая система их мозга, ответственная за эмоции.

И да, кОсатка, от испанского «asesina de ballenas» — убийца китов. Касатка — это птичка из семейства ласточковых. Не стоит путать, ибо позвологи сильно обижаются.

Рис. 1. Косатка и детёныш. Источник изображения: Pinterest

Сведения о сборке.

Нуклеотидные и белковые последовательности, а также файл аннотации были скачаны с официального FTP-архива NCBI Genomes:

К сожалению, из-за ограничения квоты на сервере kodomo не удалось загрузить файлы genomic.fna и genomic.gbff, зато получилось выложить их на гугл-диск

Таблица 1. Характеристики гаплоидной геномной сборки mOrcOrc1.1
Идентификатор GenBank GCA_937001465.1
Идентификатор RefSeq GCF_937001465.1
Уровень сборки генома Chromosome
Общий размер генома (п.н.) 2 647 335 075
Число фрагментов (хромосом) генома в сборке 22
Число скэффолдов 447
N50 скэффолдов 114 219 206
L50 скэффолдов 9
Число контигов 570
N50 контигов 45 583 382
L50 контигов 16

Поисковые системы NCBI и ENA

В рамках исследования проведен сравнительный поиск информации о генах и мРНК белка альбумин в двух международных базах. Результаты по NCBI (сводные данные в Таблице 2) и ENA приведены ниже.

Результаты поиска в ENA:

  • мРНК человека: 2 157 записей
  • Геномная ДНК человека: 13 записей

Так как поиск в базе ENA по альбумину человека дал значительно меньше записей (2 157 для мРНК), чем общий поиск в NCBI (9 254 для мРНК), для корректного сравнения систем пришлось ориентироваться на данные, относящиеся только к человеку (Homo sapiens).

Исходя из сравнения итоговых цифр, можно сделать вывод, что системы в равной степени пригодны для поиска основных массивов данных: для мРНК человека результаты близки (NCBI: 2 652, ENA: 2 157), однако NCBI предоставляет более детализированную и структурированную информацию за счет разделения на GenBank и курируемый RefSeq, что делает его предпочтительным для комплексного анализа. ENA эффективна для быстрого получения конкретных архивных записей.

Таблица 2.
База данных mRNA Human mRNA Genomic DNA or RNA Human gDNA/RNA Всего
GenBank 7 487 2 651 15 980 11 946 26 032
RefSeq 1 767 1 3 2 1 792
Всего 9 254 2 652 15 983 11 948 27 824

Placeholder

Практикум 6

Секвенирование по Сэнгеру

Тык

Placeholder

Практикум 8

Нуклеотидный BLAST

Тык

Placeholder

Практикум 9

EMBOSS, Entrez Direct, NCBI Datasets

Тык